📈
渐进式优化路径
7 步 GEMM 优化从简单到极致,每一步都有清晰的性能提升和原理讲解。实测从 0.5 TFLOPS 提升到 70+ TFLOPS,加速比达 140×。
7 步 GEMM 优化从简单到极致,每一步都有清晰的性能提升和原理讲解。实测从 0.5 TFLOPS 提升到 70+ TFLOPS,加速比达 140×。
所有 kernel 都经过测试和基准验证,遵循 NVIDIA 最佳实践。代码覆盖率全面,API 设计简洁一致,适合学习和生产使用。
支持 CUDA 12.4+、Hopper 架构新特性(TMA、Clusters)、FP8/INT8 量化、FlashAttention 2 等前沿技术。
完整的中英文文档,包含安装指南、优化教程、API 参考和故障排除。适合全球开发者学习和贡献。
从基础的 elementwise/reduction 到复杂的 GEMM/FlashAttention,再到前沿的量化与 CUDA 13 特性,全方位覆盖 AI 推理关键算子。
提供简洁的 Python API,支持直接在 PyTorch 工作流中使用。C++ 性能 + Python 易用性的完美结合。
| 角色 | 你将获得 |
|---|---|
| 学生 | 从零开始学习 CUDA 优化,理解 GPU 架构和性能瓶颈,为研究打下坚实基础 |
| 研究者 | 快速验证新的 kernel 优化思路,使用生产级基准进行对比实验 |
| 工程师 | 获得可部署的高性能 kernel 实现,加速 AI 推理应用 |
| 步骤 | 优化技术 | TFLOPS | 加速比 | 状态 |
|---|---|---|---|---|
| 1 | Naive | 0.5 | 1× | ✅ |
| 2 | Shared Memory Tiling | 2.0 | 4× | ✅ |
| 3 | Double Buffering | 3.5 | 7× | ✅ |
| 4 | Register Tiling | 6.0 | 12× | ✅ |
| 5 | Tensor Core (WMMA) | 50+ | 100× | ✅ |
| 6 | Tensor Core (MMA PTX) | ~60 | ~120× | 🚧 |
| 7 | Software Pipelining | ~70 | ~140× | 🚧 |
💡 为什么这很重要:Step 5 实现了 100× 性能提升,展示了现代 AI 硬件专用计算单元的强大威力。
# 克隆仓库
git clone https://github.com/LessUp/hpc-ai-optimization-lab.git
cd hpc-ai-optimization-lab
# 构建项目
cmake --preset default
cmake --build --preset default
# 运行你的第一个 kernel
./examples/elementwise/relu_example| 文档 | English | 中文 |
|---|---|---|
| 安装指南 | Installation | 安装指南 |
| 快速入门 | Quick Start | 快速入门 |
| GEMM 教程 | 7-Step Journey | GEMM 优化 |
| API 参考 | C++/Python | API 参考 |