GPUs: 高性能矩阵乘法内核的解剖学

Sep 29, 2025     Author:ai-epiphany     HN Points:19     HN Comments:1
Share this

摘要: 本文深入探讨了 NVIDIA GPU 在矩阵乘法(matmul)方面的核心硬件概念和编程技术。文章首先介绍了 NVIDIA GPU 架构的各个方面,包括全局内存、共享内存、L1/L2 缓存等,并解释了功率限制对性能的影响。接着,文章详细介绍了 GPU 汇编语言(SASS 和 PTX),以及如何使用这些语言来编写高效的 GPU 核心代码。文章重点介绍了两种设计高性能矩阵乘法核的技术:同步的 warp-tiling 方法和无同步的异步方法。异步方法利用了 Hopper GPU 的 Tensor 核、TMA 和 Hilbert 曲线等技术,实现了更高的性能。最后,文章讨论了 CUDA 编程模型和 PTX/SASS 编译过程,并提供了大量的代码示例和性能分析结果。

讨论: 用户bytepoet对某内容表示赞赏,认为解释详细且出色,并期待阅读关于vLLM的后续文章。

原文标题:GPUs: Anatomy of high performance matmul kernels
原文链接:https://www.aleksagordic.com/blog/matmul
讨论链接:https://news.ycombinator.com/item?id=45415998