第四讲：计算与内存基础

来源： Youtube | Tom Vman | 2024-02-05 分类： AI 工程 原文发表： Feb 05, 2024 纪要生成： 2026-03-05

全集重点

GPU计算架构逻辑：讲解流多处理器、线程束、线程块的调度规则，明确提升GPU占用率的核心方法
线程束分歧优化：解释分支、循环差异导致的性能损耗，给出新老架构下的规避方案
内存层级优化思路：对比各级内存带宽差异，说明核函数融合、共享内存分块的性能提升原理
性能评估工具：介绍屋顶线模型、理论速度上限测算方法，帮助开发者快速定位性能瓶颈

嘉宾/话题简介

本期嘉宾Tom Vman是技术博客learn apparat作者，经营独立咨询公司，即将加入Lightning AI团队。本次是CUDA模式读书会第四讲，围绕《大规模并行程序设计》教材第4、5章内容，讲解GPU计算与内存基础，帮助开发者编写高性能CUDA核函数。内容涵盖GPU硬件架构、线程调度规则、内存层级、分块优化等实操知识点，适合PyTorch等框架的底层性能优化从业者学习。

分节详述

00:00 开场与GPU计算架构概述

本节重点

对比CPU与GPU核心架构差异，介绍流多处理器（SM）的硬件构成
说明消费级GPU与数据中心GPU的核心差异，指出FP64算力的性能短板
讲解RTX 3090等主流消费级GPU的SM数量、缓存配置参数

详细精要

CPU与GPU核心架构差异：CPU单核心仅配置少量ALU，GPU单SM集成大量ALU，侧重并行计算
CPU核心包含独立取指、解码单元，上下文切换需要清空并恢复寄存器，开销较高
GPU的SM采用共享取指、解码单元设计，寄存器文件由所有线程共享，线程束切换无额外开销
近年Volta架构之后的GPU已为每个线程配置独立程序计数器，修正了旧教材的过时表述
消费级GPU硬件参数特征：以RTX 3090为例，介绍主流消费级GPU的硬件配置细节
RTX 3090配备82个独立流多处理器（SM），所有SM共享统一L2缓存，无独立FP64核心
消费级GPU的FP64算力仅为FP32的1/64，仅保留基础计算能力保障程序运行，无高性能支持
若代码意外使用64位浮点常量，会自动切换到FP64计算模式，导致性能大幅下降
单SM硬件构成：单个RTX 3090的SM分为4个独立子单元，具备独立的寄存器、调度模块
每个子单元每时钟周期可调度32个线程（1个线程束），配备32个FP32计算单元、16个INT32计算单元以及Tensor Core
单个SM配备64K 32位寄存器，以及128KB可灵活拆分的L1缓存/共享内存空间

💬 精华片段（中文）

"the fp64 rate is 1/64 of the fp32 T flop right um and this is because it just doesn't it has two compute unit units for the for 64bit floating points just to make the programs run at all but they're not going to be fast"

05:19 线程、线程束与线程块调度规则

本节重点

讲解线程块与SM的绑定规则，说明线程块大小选择对GPU占用率的影响
解释线程束的构成与线性编号规则，对比Nvidia与AMD的线程组术语差异
介绍线程束分歧的产生原因与性能损耗，说明新架构的优化逻辑

详细精要

线程块调度规则：核函数启动时定义的线程块会被随机分配到空闲SM，开发者无手动分配控制权
单个SM可同时承载多个线程块，只要资源（寄存器、共享内存）足够，RTX 3090单个SM最大可承载1536个线程
线程块大小需整除1536才能最大化SM利用率，推荐使用256、512等2的幂次大小，避免使用1024等无法充分填充SM的大小
多线程块调度时，SM以线程束为单位切换执行，寄存器无需清空恢复，切换开销可忽略
线程束的构成与编号规则：每个线程块会被自动拆分为多个32线程的线程束（Warp），是GPU调度的最小单位
多维线程索引的线性排序规则为threadIdx.x为最快变化维度，优先按x维度编组线程束
AMD硬件中线程束被称为波前（Wavefront），默认大小为64线程，可通过编译器参数改为32线程
开发者可通过Shuffle指令验证线程束编组规则，避免因索引假设错误导致的性能问题
线程束分歧的产生与影响：同一线程束内线程执行不同分支或不同循环迭代次数时，会产生分歧导致硬件闲置
旧架构GPU单个线程束共享程序计数器，分支执行时会屏蔽不满足条件的线程，依次执行所有分支，最高可损失31/32的算力
Volta之后的架构为每个线程配备独立程序计数器，可按程序计数器分组调度，隐藏内存访问延迟，但分支收敛需手动调用sync_warp指令
条件加载/存储指令不会触发线程束分歧，是优化分支代码的首选方案

💬 精华片段（中文）

"if you have thread Divergence this part here there's part of the GPU sitting idle whenever there's one of those W spots and so uh you want to avoid thread warp Divergence if you can"

17:03 GPU占用率优化与参数查询

本节重点

讲解GPU占用率的定义，说明影响占用率的核心约束条件
介绍寄存器、共享内存使用对线程调度的影响，以及launch_bounds编译指令的作用
说明PyTorch与CUDA API的硬件参数查询方法，避免硬编码Magic Number

详细精要

占用率核心影响因素：GPU占用率指硬件单元的实际利用率，需平衡多个约束条件才能最大化
首先需足够多的线程块填充所有SM，嵌入式GPU如Jetson系列SM数量极少，对线程块数量要求更低
线程块大小应取小于等于512的2的幂次，确保单个SM可承载的线程束数量最大化，提升调度灵活性
应避免在消费级GPU上使用FP64与INT64计算，嘉宾曾因误将索引改为INT64导致PyTorch二项式核函数性能大幅下降
资源使用对占用率的约束：寄存器、共享内存的使用量会直接限制单个SM可承载的线程数量
若单个线程使用寄存器过多，单个SM可承载的线程总数会下降，甚至出现寄存器溢出，变量被写入低速本地内存导致性能下降
可通过__launch_bounds__编译指令告知编译器核函数的线程数量，辅助编译器优化寄存器分配
早期使用Excel表格计算占用率，现在可通过NVIDIA Nsight Compute工具直接分析
硬件参数查询方法：所有硬件配置参数均可通过API查询，无需硬编码
PyTorch中可通过torch.cuda.get_device_properties()接口查询设备名称、计算架构、显存大小、SM数量、单个SM寄存器总数、单个SM最大线程数等参数
原生CUDA C API可查询更丰富的硬件参数，适配不同型号GPU的核函数开发应优先使用API查询参数，而非硬编码

💬 精华片段（中文）

"previously there was an Excel sheet for the occupancy calculation now this is part of inside compute and I uh Venture that we're going to see some of that in the profiling uh sessions that we're going to take"

22:15 GPU内存架构与核函数融合优化

本节重点

分析PyTorch程序的时间分布，说明GPU利用率不足的常见排查方向
讲解核函数融合的性能提升原理，介绍PyTorch历代融合器的发展与适用场景
对比GPU各级内存的带宽与容量差异，说明减少全局内存访问的核心优化思路
说明核函数融合带来的数值精度差异原因，明确精度误差的正常范围

详细精要

PyTorch程序时间分布特征：典型PyTorch程序的耗时分为Python处理、数据管理开销、数据加载、GPU计算四个部分
若GPU利用率长期低于100%，应首先排查数据加载环节，数据加载瓶颈下优化核函数无法带来明显性能提升
只要避免创建单元素张量，Python处理与数据管理开销通常仅占总耗时的2%-5%，单纯将Python代码迁移到C++收益极低
GPU计算耗时分为核函数启动固定开销、内存访问耗时、实际计算耗时三个部分
核函数融合的优化原理：核函数融合可减少全局内存的读写次数，是最常用的性能优化手段之一
原生PyTorch逐操作执行的模式下，每个算子都会读取输入、写入结果到全局内存，反复读写带来大量额外开销
融合多个算子到同一个核函数中，仅需一次读输入、一次写输出，可大幅降低内存开销
PyTorch最早的融合器支持逐点算子融合，帮助LSTM性能接近CNN水平；第二代融合器支持规约操作，其中NVIDIA Fuser仍在活跃迭代；Inductor、Triton等方案支持更复杂的算子融合
GPU内存层级差异：GPU采用金字塔式内存层级，从寄存器到全局内存带宽逐步下降、容量逐步上升
典型GPU全局内存带宽约900GB/s到1.5TB/s，共享内存带宽是全局内存的10倍以上，但容量仅为全局内存的几千分之一
Flash Attention的核心优化逻辑就是减少全局内存访问，充分利用共享内存的高带宽
嘉宾以近似Gelu算子为例，手写融合核函数的性能比原生PyTorch逐算子实现快7-8倍，甚至略快于PyTorch内置实现
浮点数精度差异说明：核函数融合可能带来微小的数值差异，根源是浮点数加法不满足结合律
32位浮点数的相对精度约为1e-7到1e-8，加法顺序不同会导致最终结果有微小差异，属于正常现象
若对数值精度要求极高，需谨慎调整计算顺序，或使用FP64计算保证精度

💬 精华片段（中文）

"this avoiding accesses to Global memory also as a core ingredient of flash attention"

36:08 屋顶线模型与性能上限评估

本节重点

讲解理论性能上限（光速）的测算方法，对比实际运行性能判断优化空间
介绍屋顶线模型的核心逻辑，帮助开发者区分计算 bound 与内存 bound 核函数
说明GPU各级内存的适用场景与声明方式

详细精要

理论性能上限测算方法：核函数的理论性能上限由内存带宽、算力、核函数启动开销三个部分共同决定
以RGB转灰度核函数为例，2048*2048图像共需传输16MB数据，900GB/s带宽下内存访问理论耗时约18微秒
RTX 3090 FP32算力为35.6 TFlops，INT32算力为16.8 TFlops，该核函数计算耗时约2微秒，空核函数启动开销约3微秒，总理论上限约23微秒
嘉宾测试的优化后核函数实际运行耗时约26微秒，达到理论上限的75%，优化空间极小
屋顶线模型核心逻辑：通过计算强度区分核函数的瓶颈类型，指导优化方向
计算强度定义为每字节内存传输对应的浮点运算次数，单位为Flops/Byte
计算强度较低的核函数为内存bound，性能上限由显存带宽决定；计算强度较高的核函数为计算bound，性能上限由GPU浮点算力决定
线程束调度可隐藏内存访问延迟，内存访问与计算可并行执行，因此性能为两者的最大值，形成屋顶形状的性能曲线
GPU各级内存的使用规则：不同类型内存有不同的声明方式与适用场景
局部变量默认存储在寄存器中，数组类型默认存储在本地内存；共享内存需用__shared__修饰符声明，生命周期与线程块一致
全局内存即通常说的GPU显存，通过指针传入核函数；常量内存主要用于存储核函数启动参数，也可手动声明
若变量不在寄存器中，访问延迟会大幅上升，应优先保证高频访问变量存储在寄存器或共享内存中

💬 精华片段（中文）

"this is jokingly called the speed of light because it's the theoretical limit uh for the speed"

45:24 共享内存分块（Tiling）优化方法

本节重点

讲解矩阵乘法的访存特征，说明分块优化的核心逻辑
介绍分块矩阵乘法的实现细节，以及线程同步的注意事项
说明非对齐尺寸矩阵的填充适配方法，以及分块优化的性能收益

详细精要

矩阵乘法的访存低效问题：朴素矩阵乘法核函数会反复从全局内存读取同一数据，访存效率极低
n*n的矩阵乘法中，每个输入元素会被读取n次，大量重复全局内存访问成为性能瓶颈
分块优化的核心思路是将数据分块读取到共享内存中，重复利用共享内存的高带宽，减少全局内存访问次数
分块大小为T时，每个输入元素的全局内存读取次数可降低到n/T次，访存量减少T倍
分块矩阵乘法的实现要点：分块矩阵乘法需要手动管理共享内存加载与线程同步
以1616分块为例，线程块大小设置为1616共256线程，每个线程负责计算输出矩阵的一个元素
声明两个大小为T*T的共享内存数组，循环加载输入矩阵的分块到共享内存，每次加载后需调用__syncthreads()同步所有线程，确保共享内存数据全部就绪
完成当前分块的计算后需再次同步线程，避免部分线程提前加载下一分块覆盖共享内存数据
非对齐矩阵适配与性能收益：分块优化可适配非对齐尺寸矩阵，带来稳定的性能提升
若矩阵尺寸不是分块大小的整数倍，需对超出范围的索引填充0，保证分块计算逻辑一致
嘉宾测试显示，16*16分块的矩阵乘法核函数比朴素实现快约25%，从900微秒降低到700微秒
后续可通过线程粗化（每个线程计算多个元素）进一步增大分块大小，获得更高的性能提升

💬 精华片段（中文）

"the idea here is to uh of tiling is to read these parameters once and put them into shared memory and then try to reuse the same value red from the uh Global memory"

56:07 总结与后续预告

本节重点

汇总本次课程的核心知识点，梳理GPU性能优化的核心方向
预告下节课内容为合并内存访问优化，介绍扩展练习方向

详细精要

本次课程核心总结：本次课程围绕GPU计算与内存基础展开，核心优化方向分为计算与内存两类
计算侧需平衡SM资源约束，提升GPU占用率，避免线程束分歧
内存侧需尽可能减少全局内存访问，通过核函数融合、分块优化等方法提升访存效率
可通过屋顶线模型、理论上限测算定位性能瓶颈，针对性优化
后续内容预告：下节课将讲解合并内存访问的规则与优化方法，进一步提升内存访问效率
推荐扩展练习为根据伪代码手写原始Flash Attention实现，深入理解分块优化的实际应用
后续课程会涵盖性能分析工具使用、更复杂的核函数优化技巧等内容

💬 精华片段（中文）

"in the next chapter we can see how to organize read and write so they are all consecutive and aligned to Global memory location so we have qualis memory access and we'll see a lot about how this works in detail"

专业术语注释

术语	解释
Streaming Multiprocessor (SM，流多处理器)	GPU的核心计算单元，集成大量ALU、寄存器、调度单元，可并行运行数千个线程，是GPU并行计算的核心硬件模块
Warp（线程束）	Nvidia GPU的最小调度单位，固定为32个线程，同一线程束内的线程共享调度资源，执行相同指令时性能最优
Wavefront（波前）	AMD GPU对线程束的称呼，默认大小为64线程，可通过编译器参数修改为32线程
Warp Divergence（线程束分歧）	同一线程束内的线程执行不同分支或不同循环迭代次数，导致部分计算单元闲置，性能下降的现象
Occupancy（占用率）	GPU硬件单元的实际利用率，越高说明硬件资源利用越充分，性能通常越好
Roofline Model（屋顶线模型）	一种性能分析模型，通过计算强度区分核函数是计算 bound 还是内存 bound，指导优化方向
Tiling（分块/切片）	一种内存优化方法，将大矩阵/大张量拆分为小分块，加载到高速共享内存中复用，减少全局内存访问次数
__syncthreads()	CUDA内置线程同步函数，同步同一个线程块内的所有线程，确保所有线程完成前面的操作后再继续执行
FP32/FP64	32位单精度浮点数、64位双精度浮点数，消费级GPU的FP64算力远低于FP32，应尽量避免在消费级GPU上使用FP64
Shared Memory（共享内存）	GPU的高速片上内存，每个SM独立配备，带宽是全局内存的10倍以上，容量较小，由同一个线程块内的所有线程共享
Global Memory（全局内存）	通常所说的GPU显存，容量大但带宽较低，是核函数输入输出的主要存储介质
Kernel Fusion（核函数融合）	将多个独立的小核函数合并为一个核函数，减少中间结果的全局内存读写，提升性能的优化方法
launch_bounds	CUDA编译指令，用于告知编译器核函数的线程块大小、最大线程块数量等参数，辅助编译器优化寄存器分配

延伸思考

尝试查询自己常用GPU的FP32/FP64算力、显存带宽、单个SM最大线程数等参数，测算常用核函数的理论性能上限，评估当前实现的优化空间。
测试不同线程块大小（128、256、512、1024）对核函数性能的影响，结合Nsight Compute工具观察SM占用率的实际变化。
尝试将业务中常用的多步逐点算子手动融合，对比融合前后的性能差异，分析内存开销的降低幅度。
尝试实现分块优化的矩阵乘法，测试不同分块大小（8、16、32）的性能差异，总结分块大小选择的核心依据。

原文发表：Feb 05, 2024 · 纪要生成：2026-03-05