5.15. 什么是峰值速率?
峰值速率是指硬件系统能够完成工作的理论最大速率。
峰值速率代表了当所有执行单元都以最高效率满负荷运行时,GPU 性能的绝对上限。它假设在理想运行状态下,即没有任何资源限制(如 寄存器、内存带宽、同步屏障等)造成 性能瓶颈。
峰值速率是衡量所有实际性能的基准。它在 屋顶线模型 中设定了 计算受限 的 “屋顶”。它是在 流水线利用率 指标中利用率分数的分母,也是 GPU 利用率的最终评判标准。
富有诗意的是,NVIDIA 工程师通常称之为”光速”——这是由物理定律所决定的程序速度极限。
峰值速率是直接根据每个 GPU 架构的固定硬件规格计算得出的。
例如,一个具有 132 个流式多处理器 (SM) 的 NVIDIA H100 GPU,每个 SM 包含 128 个 FP32 核心,每个核心可以发出 1 个单精度融合乘加 (FMA) 操作,该操作包含 2 个浮点运算。这相当于每时钟周期可执行 33,792 条 指令。当使用 FP32 核心时,H100 可以使其计算子系统时钟以最高 1980 MHz(每秒百万时钟周期)的速率运行,因此峰值速率为 66,908 亿 FLOPS,即 66.9 TFLOPS。
这与 NVIDIA H100 白皮书 中宣传的峰值 FP32 TFLOPS(非 Tensor)速率完全吻合。