Skip to content

证据

这个部分是 TensorCraft-HPC 的“证明面”。

性能结论必须同时给出方法、限制条件与来源页面。方法 通过 benchmark 汇总、方法说明,以及对白皮书和参考资料的交叉链接来完成。来源 性能基准、技术白皮书与参考页面。
TensorCraft-HPC 性能证据图

性能概览

Performance Benchmarks

Relative performance compared to NVIDIA libraries on A100 80GB (FP16 Tensor Core)

GEMM (FP16)vs cuBLAS
Tensor Core enabled
92%
100%
FlashAttentionvs cuDNN
Memory-efficient tiling
85%
100%
LayerNormvs cuDNN
Fused kernel
95%
100%
Conv2Dvs cuDNN
Im2Col optimization
78%
100%
SpMV (CSR)vs cuSPARSE
CSR format
88%
100%
88%Average
95%Best
5Kernels
📊Benchmarks run on A100 80GB, CUDA 12.4, Tensor Core enabled

这里包含什么

Released under the MIT License.