简体中文
Appearance
现代 GPU 计算技术白皮书 — 从 Volta 到 Blackwell
从朴素实现到 Tensor Core 的渐进式优化路径,每一步都有清晰的注释。
FP16 GEMM 在 A100 上达到行业标准性能,充分利用 Tensor Core。
零构建复杂度 — 只需包含头文件。可选 Python 绑定通过 pip install。
编译时特性检测支持 SM70-SM100,覆盖 Volta 到 Blackwell。