使用opengl和x264更快地编码实时3D图形

我正在研究一个系统,它将一个压缩视频从3d图形发送到客户端,这些图像在渲染后立即在服务器中完成.

我已经有了代码工作,但我觉得它可能会更快(并且它已经是系统中的瓶颈)

这是我在做的事情:

首先我抓住帧缓冲区

glReadBuffer( GL_FRONT );
glReadPixels( 0, 0, width, height, GL_RGB, GL_UNSIGNED_BYTE, buffer ); 

然后我翻转帧缓冲区,因为swsScale(我用于颜色空间转换)有一个奇怪的错误,当我转换时,它会垂直翻转图像.我提前翻转,没有什么花哨的.

void VerticalFlip(int width, int height, byte* pixelData, int bitsPerPixel)
{
byte* temp = new byte[width*bitsPerPixel];
height--; //remember height array ends at height-1


for (int y = 0; y < (height+1)/2; y++) 
{
    memcpy(temp,&pixelData[y*width*bitsPerPixel],width*bitsPerPixel);
    memcpy(&pixelData[y*width*bitsPerPixel],&pixelData[(height-y)*width*bitsPerPixel],width*bitsPerPixel);
    memcpy(&pixelData[(height-y)*width*bitsPerPixel],temp,width*bitsPerPixel);
}
delete[] temp;
}

然后我将它转换为YUV420p

convertCtx = sws_getContext(width, height, PIX_FMT_RGB24, width, height, PIX_FMT_YUV420P, SWS_FAST_BILINEAR, NULL, NULL, NULL);
uint8_t *src[3]= {buffer, NULL, NULL}; 

sws_scale(convertCtx, src, &srcstride, 0, height, pic_in.img.plane, pic_in.img.i_stride);

然后我几乎只是调用x264编码器.我已经在使用zerolatency预设了.

int frame_size = x264_encoder_encode(_encoder, &nals, &i_nals, _inputPicture, &pic_out);

我的猜测是应该有一个更快的方法来做到这一点.捕获帧并将其转换为YUV420p.将它转换为GPU中的YUV420p并将其复制到系统内存之后会很好,希望有一种方法可以在不需要翻转的情况下进行颜色转换.

如果没有更好的方法,至少这个问题可能会帮助有人试图做到这一点,就像我做的那样.

最佳答案 首先,使用PBO使用异步纹理读取.这是
example它通过使用2个PBO来加速读取,这些PBO异步工作而不会像readPixels那样直接使用管道.在我的应用程序中,当切换到PBO时,我的性能提升了80%.

另外,在一些GPU上glGetTexImage()的工作速度比glReadPixels()快,所以试一试.

但是如果你真的想把视频编码提升到一个新的水平,你可以通过CUDA使用Nvidia Codec Library.我最近问了同样的问题,所以this可以提供帮助.

点赞