论文引用
本页面列出了影响 TensorCraft-HPC 设计和实现的学术论文和开源项目。我们鼓励用户阅读原始论文以获得更深入的理解。
GEMM 优化
基础论文
Tensor Core 编程模式的主要参考。TensorCraft-HPC 的 GEMM 实现遵循 CUTLASS 的分块和流水线策略。
性能比较的基准。所有 GEMM 基准测试报告相对于 cuBLAS 的性能。
Tensor Core 编程
理解 WMMA (Warp Matrix Multiply-Accumulate) 操作的必读材料。
Attention 机制
FlashAttention
— FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
NeurIPS 2022
arXiv:2205.14135 | GitHub
NeurIPS 2022
arXiv:2205.14135 | GitHub
内存高效注意力机制的基础论文。TensorCraft-HPC 实现了论文中描述的分块策略。
— FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning
ICLR 2024
arXiv:2307.08691
ICLR 2024
arXiv:2307.08691
注意力计算的改进并行策略。
RoPE (旋转位置编码)
归一化
RMSNorm 是 LLaMA 和许多现代大语言模型使用的归一化层。
量化
定义 Hopper 架构中使用的 E4M3 和 E5M2 FP8 格式的论文。
稀疏操作
Ampere 架构支持 2:4 结构化稀疏,可提供 2 倍吞吐量提升。
相关项目
| 项目 | 描述 | 许可证 |
|---|---|---|
| CUTLASS | CUDA 线性代数模板 | BSD-3 |
| FlashAttention | 内存高效注意力 | BSD-3 |
| xFormers | Facebook 注意力内核 | BSD-3 |
| Triton | OpenAI GPU 编程语言 | MIT |
| cuDNN | NVIDIA 深度学习库 | 私有 |
引用 TensorCraft-HPC
如果您在研究或教学材料中使用 TensorCraft-HPC,请引用:
bibtex
@software{tensorcraft-hpc,
title = {TensorCraft-HPC: Demystifying High-Performance AI Kernels
with Modern C++ and CUDA},
author = {LessUp},
year = {2024},
url = {https://github.com/LessUp/modern-ai-kernels},
note = {Header-only C++/CUDA kernel library for learning}
}