学院

学院部分的目标不是只教你怎么编译，而是教你如何把这个仓库当作一个系统来阅读。

你会在这里学到什么

Progressive optimization from naive to Tensor Core implementation

Naive

Tiled

Double Buffer

Tensor Core

Direct triple loop implementation

Global memory accessNo parallelism optimization

Shared memory blocking

Block-level tilingShared memory reuseCoalesced access

45%

Pipeline memory access

PrefetchingLatency hidingWarp synchronization

75%

WMMA hardware acceleration

WMMA instructionsMixed precisionMaximum throughput

92%