Skip to content

性能

Tiny-LLM 的性能概览和基准测试。

核心结果

指标数值vs FP16
内存7.8 GB↓50%
解码85 tok/s↑9%
精度9.12 pplΔ 0.4%

基于 LLaMA-7B, RTX 4090, INT8 权重的基准测试


内存效率

W8A16 量化提供显著的内存节省:

组件FP16INT8 (W8A16)节省
模型权重13.5 GB7.0 GB48%
KV 缓存 (2K)1.0 GB1.0 GB
激活值0.5 GB0.5 GB
总计15.0 GB8.5 GB43%

吞吐量

解码阶段(Token 生成)

预填充阶段(提示处理)


内核性能

优化的 CUDA 内核实现高利用率:

内核Tensor Core内存带宽占用率
w8a16_matmul92%580 GB/s87%
attn_decode78%420 GB/s95%
attn_prefill85%480 GB/s82%
rmsnorm380 GB/s100%

章节

架构影响

性能由架构决策驱动:

基于 MIT 许可证发布