5.11. 什么是线程束执行状态？

运行内核的线程束状态可通过多个非互斥的形容词来描述：活跃的（active）、停滞的（stalled）、就绪的（eligible）和已选择的（selected）。

线程束的执行状态通过颜色标识。图表灵感来源于 GTC 2025 的 CUDA Techniques to Maximize Compute and Instruction Throughput 演讲。

线程束从其线程开始执行到所有线程都从内核退出为止，该线程束均被认为是 活跃的 (active)。活跃的线程束构成了一个资源池，线程束调度器每个周期从中选择候选者来发射指令（即放入某个发射槽中）。

每个流式多处理器 (SM) 上活跃的线程束最大数量因架构而异，具体可参考 NVIDIA 文档中的计算能力章节。例如，在具有计算能力 9.0 的 H100 SXM GPU 上，每个 SM 最多可容纳 64 个活跃的线程束（2048 个线程）。需要注意的是，活跃的线程束不一定正在执行指令。在上图中，除了一个槽位+周期外，其余所有槽位+周期都有活跃的线程束 —— 这表明了高占用率。

就绪的 (eligible) 线程束是指准备好发射下一条指令的活跃的线程束。要使一个线程束变成就绪状态，必须满足以下所有条件：

已获取下一条指令，
所需的执行单元可用，
所有指令依赖关系已解析，并且
无同步屏障阻碍执行。

就绪的线程束是线程束调度器可以立即进行指令发射的候选对象。在上图中，除了 n + 2 周期之外的所有周期均存在就绪的线程束。若多个周期内没有就绪的线程束可能会对性能造成负面影响，特别是当您主要使用像 CUDA 核心这样的低延迟算术单元时。

停滞的 (stalled) 线程束是指因未解决的依赖关系或资源冲突而无法发射其下一条指令的活跃的线程束。线程束停滞的原因多种多样，包括：

执行依赖，必须等待先前算术指令的结果，
内存依赖，必须等待先前内存操作的结果，
流水线冲突，执行资源当前被占用。

当线程束因访问共享内存或因执行长时间运行的算术指令而停滞时，我们称其停滞在”短计分板（short scoreboard）”上。当因访问 GPU 内存而停滞时，则称为停滞在”长记分板（long scoreboard）”。这两种停顿都被称为记分板停滞 (Scoreboard Stalls)。

在上图中，每个周期的多个槽位中都出现了停滞的线程束。停滞的线程束本身并不一定是坏事——大量并发停滞的线程束可能是隐藏延迟所必需的，这些延迟来自长时间运行的指令，如内存加载或像 HMMA 这样的张量核心指令，这些指令可能运行数十个周期。

已选择的 (selected) 线程束是指在当前周期已被线程束调度器选中接收指令的就绪线程束。每个周期，线程束调度器都会查看其就绪线程束资源池，如果存在任何符合条件的线程束，则选择一个并向其发射一条指令。每个存在就绪线程束的周期中，都有一个已选择的线程束。在活跃周期中，某个线程束被选中并发射指令的比例就是发射效率。