Skip to content

Tiny-LLMCUDA 原生推理引擎

面向聚焦型 Transformer 推理,提供 W8A16 kernel、显式 KV Cache 管理,以及更低维护成本的仓库表面。

Tiny-LLM Logo

运行时边界

能力状态说明
二进制运行时加载支持InferenceEngine::load() 使用这条路径
GGUF 解析与检查支持使用 GGUFParser 读取元数据和 tensor
直接 GGUF 运行时加载不支持运行时加载器会拒绝 .gguf 路径

架构示意

从这里开始

资源用途
开始使用最小构建与首次运行路径
架构说明运行时结构与职责划分
API 参考公共头文件与类型
性能基准和优化说明
GitHub 仓库源码、Issue、Release

基于 MIT 许可证发布