简体中文
主题
面向聚焦型 Transformer 推理,提供 W8A16 kernel、显式 KV Cache 管理,以及更低维护成本的仓库表面。
INT8 权重 + FP16 激活,保持精简的 CUDA 运行时路径。
`InferenceEngine::load()` 面向当前引擎支持的二进制运行时格式。
保留 GGUF 解析、元数据提取和 tensor 检查能力,但不再假装它就是运行时加载路径。
预分配序列槽位,让自回归解码更可预测。
宿主侧失败显式可见,便于排查和收敛。
GoogleTest 与 RapidCheck 覆盖核心加载、缓存和生成路径。
InferenceEngine::load()
GGUFParser
.gguf