我有一个循环,可以反转数组中的元素.我已将问题简化并减少到以下内容:
for (int x=0;x<w/2;++x) {
int il = x;
int ir = w-1-x;
type_copy l = data[il];
type_copy r = data[ir];
data[il] = r;
data[ir] = l;
}
此代码反转元素,但速度相当慢.首先,它不能自动矢量化,因为数组访问是不连续的.另一方面,右侧的访问是从理想的缓存遍历向后进行的.最后,可能存在一些停滞,因为下一个循环周期的加载不会发生在最后一个循环周期的数据提交之前,因为编译器可能无法判断自带别名的指针是否自动命中.
在我的例子中,sizeof(type_copy)是4 * sizeof(uint8_t)= 4或者4 * sizeof(float)= 4 * 4 = 16.因此,请注意字节级反转是不可接受的.
我的问题是:如果可以的话,如何优化这些代码?
最佳答案 假设您的数据类型如下:
struct float_data
{
float f1;
float f2;
float f3;
float f4;
};
struct uint8_t_data
{
uint8_t f1;
uint8_t f2;
uint8_t f3;
uint8_t f4;
};
你可以尝试SSE内在函数.对于uint8_t_data,有很好的速度提升:
typedef uint8_t_data type_copy;
for (int x = 0; x<w / 2; x += 4)
{
int il = x;
int ir = w - 1 - x - 3;
__m128i dl = _mm_loadu_si128((const __m128i*)&data[il]);
__m128i dr = _mm_loadu_si128((const __m128i*)&data[ir]);
_mm_storeu_si128((__m128i*)&data[ir], _mm_shuffle_epi32(dl, _MM_SHUFFLE(0, 1, 2, 3)));
_mm_storeu_si128((__m128i*)&data[il], _mm_shuffle_epi32(dr, _MM_SHUFFLE(0, 1, 2, 3)));
}
输出:
g++ -O3 non vectorized: 16ms
g++ -O3 vectorized: 5ms
但是对于float_data没有太大的速度提升:
typedef float_data type_copy;
for (int x = 0; x<w / 2; x+=2) {
int il = x;
int ir = w - 1 - x - 1;
__m256 dl = _mm256_loadu_ps((const float*)&data[il]);
__m256 dr = _mm256_loadu_ps((const float*)&data[ir]);
_mm256_storeu_ps((float*)&data[ir], _mm256_permute2f128_ps(dl, dl, 1));
_mm256_storeu_ps((float*)&data[il], _mm256_permute2f128_ps(dr, dr, 1));
}
输出:
g++ -O3 -mavx non vectorized: 27ms
g++ -O3 -msse4.2 non vectorized: 25ms
g++ -O3 -mavx vectorized: 24ms