# 什么是算术带宽？

算术带宽是系统能够执行算术运算的 [峰值速率](/gpu-glossary/perf/peak-rate)。

它代表了理论上每秒可实现的算术运算吞吐量上限，决定了硬件 [屋顶模型](/gpu-glossary/perf/roofline-model) 中"计算屋顶"的高度。

在一个完整系统中有多种算术带宽——每组提供算术操作执行的硬件单元都有对应的算术带宽。

在许多 GPU 中，最重要的算术带宽是 [CUDA 核心](/gpu-glossary/device-hardware/cuda-core) 的浮点运算带宽。GPU 通常为浮点操作提供比整数运算更高的带宽，而 [统一计算设备架构 (CUDA)](/gpu-glossary/device-hardware/cuda-device-architecture) 的关键在于 [CUDA 核心](/gpu-glossary/device-hardware/cuda-core) 及其支持系统为 GPU 应用程序提供了统一的计算接口（与早期的 GPU 架构不同）。

但在近年来的 GPU 中，随着 [张量核心](/gpu-glossary/device-hardware/tensor-core) 的引入，架构的统一性有所降低。张量核心仅执行矩阵乘法运算，但其算术带宽远高于 [CUDA 核心](/gpu-glossary/device-hardware/cuda-core) —— [张量核心](/gpu-glossary/device-hardware/tensor-core) 与 [CUDA 核心](/gpu-glossary/device-hardware/cuda-core) 带宽的比例通常约为 100:1。 这使得对于希望最大化性能的 [内核](/gpu-glossary/device-software/kernel) 而言，[张量核心](/gpu-glossary/device-hardware/tensor-core) 的算术带宽变得最为重要。

当代 GPU 的 [张量核心](/gpu-glossary/device-hardware/tensor-core) 算术带宽以 petaFLOPS（每秒千万亿次浮点运算）为单位。例如，[B200 GPU](https://modal.com/blog/introducing-b200-h200) 在运行 4 位浮点矩阵乘法时的带宽为 9 PFLOPS。

以下表格列出了 NVIDIA 数据中心 GPU 从 Ampere 到 Blackwell [流式多处理器架构 (Streaming Multiprocessor Architecture)](/gpu-glossary/device-hardware/streaming-multiprocessor-architecture) 的代表性带宽数据。

| **系统 (计算 / 内存)**                                                                                                                               | **算术带宽 (TFLOPs/秒)** | **[内存带宽](/gpu-glossary/perf/memory-bandwidth) (TB/秒)** | **[屋脊点](/gpu-glossary/perf/roofline-model) (FLOPs/字节)** |
| :---------------------------------------------------------------------------------------------------------------------------------------------------------- | ----------------------------------: | -----------------------------------------------------------------: | ----------------------------------------------------------------: |
| [A100 80GB SXM BF16 TC / HBM2e](https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/a100/pdf/nvidia-a100-datasheet-us-nvidia-1758950-r4-web.pdf) |                                 312 |                                                                  2 |                                                               156 |
| [H100 SXM BF16 TC / HBM3](https://resources.nvidia.com/en-us-gpu-resources/h100-datasheet-24306)                                                            |                                 989 |                                                               3.35 |                                                               295 |
| [B200 BF16 TC / HBM3e](https://resources.nvidia.com/en-us-dgx-systems/dgx-b200-datasheet)                                                                   |                                2250 |                                                                  8 |                                                               281 |
| [H100 SXM FP8 TC / HBM3](https://resources.nvidia.com/en-us-gpu-resources/h100-datasheet-24306)                                                             |                                1979 |                                                               3.35 |                                                               592 |
| [B200 FP8 TC / HBM3e](https://resources.nvidia.com/en-us-dgx-systems/dgx-b200-datasheet)                                                                    |                                4500 |                                                                  8 |                                                               562 |
| [B200 FP4 TC / HBM3e](https://resources.nvidia.com/en-us-dgx-systems/dgx-b200-datasheet)                                                                    |                                9000 |                                                                  8 |                                                              1125 |