4.9. 什么是 nvidia-smi?

这个命令行实用程序用于查询和管理由 NVML 管理库暴露的 GPU 状态。其输出(如下所示样本)对于 NVIDIA GPU 用户来说非常熟悉,甚至被戏称为 GPU 界的 Hello World

nvidia-smi 报告以下信息:

  • GPU 身份信息,如显卡型号名称、UUID 和 PCI ID

  • 内核执行时间和内存分配的实时利用率指标

  • 实时功耗和温度信息

有关这些指标的详细说明(包括如何解读功率和温度读数),请参见 Modal 文档中的这个页面

nvidia-smi 还可以列出当前使用 GPU 的进程(-q--querypmon 参数)。常见的管理任务包括设置持久模式(-pm)、计算模式(-c)、功耗限制(-pl)、应用/锁定时钟(-ac-lgc-lmc)以及执行 GPU 重置(-r)。

输出可以格式化为人类可读的文本或 XML(-x 参数)。虽然 nvidia-smi 的文本输出格式不保证稳定,但底层的 NVML C 库 为工具开发提供了稳定的 API。

nvidia-smi 的文档可以在 这里 找到,官方 Python 绑定可以在 这里 找到。

+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 580.95.05              Driver Version: 580.95.05      CUDA Version: 13.0     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA B200                    On  |   00000000:51:00.0 Off |                    0 |
| N/A   27C    P0            136W / 1000W |       0MiB / 183359MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   1  NVIDIA B200                    On  |   00000000:52:00.0 Off |                    0 |
| N/A   25C    P0            140W / 1000W |       0MiB / 183359MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   2  NVIDIA B200                    On  |   00000000:62:00.0 Off |                    0 |
| N/A   27C    P0            138W / 1000W |       0MiB / 183359MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   3  NVIDIA B200                    On  |   00000000:63:00.0 Off |                    0 |
| N/A   26C    P0            138W / 1000W |       0MiB / 183359MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   4  NVIDIA B200                    On  |   00000000:75:00.0 Off |                    0 |
| N/A   27C    P0            139W / 1000W |       0MiB / 183359MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   5  NVIDIA B200                    On  |   00000000:76:00.0 Off |                    0 |
| N/A   25C    P0            140W / 1000W |       0MiB / 183359MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   6  NVIDIA B200                    On  |   00000000:86:00.0 Off |                    0 |
| N/A   27C    P0            142W / 1000W |       0MiB / 183359MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   7  NVIDIA B200                    On  |   00000000:87:00.0 Off |                    0 |
| N/A   26C    P0            138W / 1000W |       0MiB / 183359MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+