证据
这个部分是 TensorCraft-HPC 的“证明面”。
性能结论必须同时给出方法、限制条件与来源页面。方法 通过 benchmark 汇总、方法说明,以及对白皮书和参考资料的交叉链接来完成。来源 性能基准、技术白皮书与参考页面。
性能概览
Performance Benchmarks
Relative performance compared to NVIDIA libraries on A100 80GB (FP16 Tensor Core)
GEMM (FP16)vs cuBLAS
Tensor Core enabledFlashAttentionvs cuDNN
Memory-efficient tilingLayerNormvs cuDNN
Fused kernelConv2Dvs cuDNN
Im2Col optimizationSpMV (CSR)vs cuSPARSE
CSR format88%Average
95%Best
5Kernels
Benchmarks run on A100 80GB, CUDA 12.4, Tensor Core enabled