CUDA的基础知识

数据精度

内存占用更少：fp16 模型占用的内存只需 fp32 模型的一半：
- 模型训练时，可以用更大的batchsize；
- 模型训练时，GPU并行时的通信量大幅减少，大幅减少等待时间，加快数据的流通；
计算更快：主流 GPU 都有针对 fp16 的计算进行优化，在这些 GPU 中，半精度的计算吞吐量可以是单精度的 2-8 倍；

CUDA中线程可以分成三个层次：线程、线程块和线程网络。
- 线程（Thread）：CUDA 中基本执行单元，由硬件支持、开销很小，每个线程执行相同代码；
- 线程块（Block）：若干线程的分组，Block 内一个块至多512个线程、或1024个线程（根据不同的 GPU 规格），线程块可以是一维、二维或者三维的；
- 线程网络（Grid）：若干线程块 Block 的网格，Grid 是一维和二维的
GPU 有很多线程，在CUDA里被称为 Thread，同一组 Thread归为一个Block，而Block 又会被组织成一个Grid。
GPU 上有很多计算核心[ Streaming Multiprocessor (SM)]， SM 是一块硬件，包含固定数量的运算单元，寄存器和缓存。
在具体的硬件执行中，一个SM会同时执行一组线程，在CUDA 里叫warp，直接可以理解这组硬件线程warp会在这个 SM 上同时执行一部分指令，一组的数量一般为32或者64个线程。
一个 Block 会被绑定到一个SM上，这些线程组会被相应的调度器来进行调度，在逻辑层面上1024个线程同时执行，但实际上在硬件上是一组线程同时执行。假如一个SM同时能执行 64个线程，但一个Block 有1024个线程，那这 1024 个线程是分 $1024/64 = 16$ 次执行

GPU 在管理线程的时候是以block为单元调度到 SM 上执行。每个 block 中以warp(一般32个线程或64线程) 作为一次执行的单位(真正的同时执行)

不同的GPU规格参数不一样，执行参数不同，比如 Fermi 架构:

一个 Block 会绑定在一个 SM 上，同时一个 Block内的Thread共享一块 ShareMemory（一般是SM的一级缓存，越靠近SM的内存就越快）。
GPU和CPU也一样有着多级 Cache 还有寄存器的架构，把全局内存的数据加载到共享内存上再去处理可以有效的加速。

将整个模型放在一块GPU里，再复制到每一块GPU上，同时进行正向传播和反向误差传播，相当于加大batch_size。
每个GPU都加载模型参数，这些GPU称为工作节点(workers)，为每个GPU分配分配不同的数据子集同时进行处理，分别求解梯度，然后求解所有节点的平均梯度，每个节点各自进行反向传播

Pytorch对于数据并行有很好的支持，数据并行也是最常用的GPU并行加速方法之一。
将模型按层分割，不同的层被分发到不同的GPU上运行。每个GPU上只有部分参数，因此每个部分的模型消耗GPU的显存成比例减少，常用于GPU显存不够，无法将一整个模型放在GPU上

layer的输入和输出之间存在顺序依赖关系，因此在一个GPU等待其前一个GPU的输出作为其输入时，朴素的实现会导致出现大量空闲时间。这些空闲时间被称作“气泡”，而在这些等待的过程中，空闲的机器本可以继续进行计算。

混合专家系统（MoE）是指，对于任意输入只用一小部分网络用于计算其输出。在拥有多组权重的情况下，网络可以在推理时通过门控机制选择要使用的一组权重，这可以在不增加计算成本的情况下获得更多参数。
每组权重都被称为“专家（experts）”，理想状态下，网络能够学会为每个专家分配专门的计算任务不同的专家可以托管在不同的GPU上，为扩大模型使用的GPU数量提供一种明确的方法。