我正在实现平铺延迟着色,为此我需要计算平铺的最小/最大深度值.我为每个tile渲染1个像素,并在嵌套for循环中收集深度值,如下所示:
float minDepth = 1.0;
float maxDepth = 0.0;
ivec2 clampMax = ivec2(screenSize) - 1;
// Iterate over each pixel in this tile
for (int x = 0; x < 32; x++) {
for (int y = 0; y < 32; y++) {
ivec2 newCoord = screenCoord + ivec2(x,y);
newCoord = min(newCoord, clampMax);
// Fetch the depth for that coordinate
float currentDepth = texelFetch(depth, newCoord, 0).r;
minDepth = min(minDepth, currentDepth);
maxDepth = max(maxDepth, currentDepth);
}
}
到目前为止这个工作正常,但是看看生成的程序集,纹理查找会得到这样的结果:
// R2.xy contains 'newCoord'
MOV.S R2.z, {0, 0, 0, 0}.x;
TXF.F R1.x, R2.xyzz, handle(D0.x), 2D;
这基本上等于:
vec3 coordinate;
coordinate.xy = newCoord;
coordinate.z = 0;
result = texelFetch(depth, coordinate);
因此它为纹理查找生成了一条额外的不必要的指令,这在这样的循环中总结了很多.我的猜测是,NVIDIA内部实现了texelFetch
texelFetch(sampler2D sampler, ivec3 coord)
回到问题:你如何优化这个循环?
我在Windows上使用带有最新驱动程序的GTX 670.
最佳答案 不要担心这些额外的步骤.它最有可能在寄存器中完成,寄存器比单个全局存储器访问(texelFetch)快200倍.
但这是一种优化问题而不是循环的方法:
一般来说,最有效的GPU程序是那些每个线程尽可能少地工作的程序,并且所有线程工作的组合与您使用顺序算法所需的数量相同.
Opengls方法现在用于计算GPU上自己线程中的每个像素.对于大多数情况,这是完全正常的,但在您的问题中,每个线程的工作量非常大(32 * 32 * texelFetch).
那么如何优化这个问题呢?
– >减少每个线程的工作量
怎么样?
– >平行减少(http://www.drdobbs.com/architecture-and-design/parallel-pattern-7-reduce/222000718)
非正式说明:
>你有32×32的区域.
>不是计算整个区域的最小值/最大值,而是分多步完成.
– >计算2×2块的最小值/最大值(每个区域16×16块)
– >所以现在你的图像要小4倍
– >这样做5次
– >您现在拥有整个区域的最小值/最大值