性能方法学
先看方法,再看数字
如果不先交代测量方法,性能数字本身没有说服力。这个页面的目标是帮助读者理解:这些 benchmark 结果在什么条件下成立,应该怎样阅读,哪些结论可以安全地得出。
测量前提
- GPU:NVIDIA RTX 3090(Ampere)
- 理论带宽:936 GB/s
- 关注指标:时间、带宽、利用率、方差
- 对比对象:不同稀疏模式下的 kernel 选择结果
推荐阅读方式
- 先看趋势,不只看峰值:是否稳定接近 70%+ 带宽利用率。
- 把矩阵模式和 kernel 一起看:均匀矩阵与高偏斜矩阵的最优策略不同。
- 看选择器是否解释得通:自动选择结果是否与统计特征一致。
- 看方差:平均值高但波动大,未必适合当成强结论。