Skip to content

学院

学院部分的目标不是只教你怎么编译,而是教你如何把这个仓库当作一个系统来阅读。

你会在这里学到什么

  • 仓库如何组织 kernels、memory primitive 与硬件能力检测
  • 优化路径如何从朴素版本演进到 Tensor Core aware 实现
  • 应该怎样结合正确的方法论去评估 benchmark 结论

推荐阅读顺序

  1. 快速开始
  2. 架构解读
  3. 现代 C++ 与 CUDA
  4. 基准测试
  5. 示例

优化路径

Optimization Path

Progressive optimization from naive to Tensor Core implementation

1
Naive
2
Tiled
3
Double Buffer
4
Tensor Core
1

Naive

Direct triple loop implementation

Global memory accessNo parallelism optimization
5%
2

Tiled

Shared memory blocking

Block-level tilingShared memory reuseCoalesced access
45%
3

Double Buffer

Pipeline memory access

PrefetchingLatency hidingWarp synchronization
75%
4

Tensor Core

WMMA hardware acceleration

WMMA instructionsMixed precisionMaximum throughput
92%

Released under the MIT License.