在查看NVIDIA Fermi架构中的性能计数器名称(cuda的doc文件夹中的Compute_profiler.txt文件)时,我注意到对于L2缓存未命中,有两个性能计数器,l2_subp0_read_sector_misses和l2_subp1_read_sector_misses.他们说这些是两片L2.
为什么他们有两片L2?与流式多处理器架构有什么关系吗?这种划分对表现的影响是什么?
谢谢
最佳答案 我不认为与流式多处理器有任何直接关系.
我只是认为切片相当于银行存储器.
只需将两者的值相加即可获得“总”L2读取未命中数.