cuda shader

2019年10月23日 244次阅读来源: 安安宝宝

Nvidia CUDA（计算统一设备体系结构）是一种专用的编程模型和并行计算平台。每个Nvidia GPU都包含CUDA内核。CUDA使得人们可以用GPU中的许多计算核心来执行通用数学计算。
大多数情况下，统一着色体系结构硬件由一系列计算单元和某种形式的动态调度 / 负载平衡系统组成，以确保所有计算单元保持尽可能频繁地工作。

NVIDIA GPU中相当于“ CPU内核”（OpenCL中定义为计算单元）的是SM流多处理器。每个流多处理器有一个包含8个流处理器的向量单元。SP是NVIDIA所称的“ CUDA核心”，尽管由于这些SM是SIMD架构而颇具误导性。
《cuda shader》

比如GTX 260有24个SM，每个SM有8个SP芯片上，总共有192个SP，NVIDIA将其称为192个cuda内核。从OpenCL的角度来看，从SM的数量来看，有24个计算单元。
“ cuda core”是向量单元内部的一个ALU。

NVIDIA将单个SP称为单个处理核心。它具有两个ALU和一个FPU的完全流水线结构，是面向单一问题的有序微处理器。SP没有任何缓存，将大部分时间都花在处理像素或顶点数据上，因此除了处理大量的数学运算外，它在其他任何方面都不是特别出色。
《cuda shader》

CUDA内核是类似于计算机中处理器的并行处理器，可以是双核或四核处理器。但是，Nvidia GPU可能具有数千个内核。这些内核负责各种任务，这些任务允许内核的数量直接与GPU的速度和功能相关。
由于CUDA内核负责处理通过GPU传输的所有数据，因此，在加载人物和风景时，这些内核可以处理图形之类的事情。

计算单元是GPU核心，而不是着色器或cuda核心。可用openCL查询。所谓的着色器或CUDA内核只是GPU内核的一部分，它不能独立运行，而是依靠GPU内核进行操作。例如，给一个数组乘以另一个数组，GPU核心将接收它并划分元素以提供给每个着色器（cuda核心）以执行工作。因此，着色器（CUDA核心）只是处理器的一个组成部分。
GPU由一堆处理器内核组成，这些处理器内核在计算机术语中称为计算单元。每个核心/计算单元都有一堆着色器，TMU和ROP。
在GPU中，包含了着色器的一个核心被称为cuda核心，Cuda核心是着色器，流处理器是着色器。
自从GPU使用统一的体系结构以来，GPU内核包含更多通用单元。这些单元通常称为着色器。每个着色器基本上就像较大的处理器中的某种微型处理器部分（例如x86 CPU中的SSE单元）一样，可以执行某些任务，而不是全部。
GPU具有内核，内核本身具有许多着色器。每个GPU内核都包含一个解码器，用于解码内核本身的指令。然后根据工作本身将工作负载发送到核心中的各个不同单元。每个GPU内核均包含着色器（nvidia称其为cuda内核，AMD称其为流处理器），TMU，ROP，并且在某些GPU中还具有其他单元。每个单元对图形都有贡献，因此在特定图形设置下具有更多特定单元的GPU更快。

着色器如何映射到实际的GPU硬件?
着色器程序与GPU内核之间是否存在一对一的关系？那么，顶点着色器程序是否在一个内核上运行，而片段着色器在另一个内核上运行？然后，数据是否从顶点着色器核心传递到片段着色器核心？还是GPU上的每个内核都负责所有着色器和整个图形管线？
确切的关系取决于卡和驱动程序。着色器程序从通用形式（例如OpenGL或DirectX）转换为卡可以直接运行的形式，类似于对使用字节码的Java等语言的即时编译。

因此，这种关系取决于程序和卡的性质。如果程序又大又复杂，则卡可能需要分配多个内核，但是单个内核很可能在多个流处理器上运行着色器的许多实例。

现代卡是动态分配工作的，因此很少有1：1关系。每个内核具有多个流处理器，因此如果它们不太复杂，则可以同时处理多个着色器。

    原文作者：安安宝宝
    原文地址: https://blog.51cto.com/1960961732/2444607
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。