架构概览

Tiny-LLM 围绕一条很窄的 CUDA/C++ 运行时路径构建：支持的二进制运行时加载、显式 KV Cache 管理、W8A16 量化层，以及宿主侧基于 Result<T> 的错误传播。

系统示意

组件	职责
`InferenceEngine`	公开运行时入口，负责加载支持的二进制模型并生成 token ID
`ModelLoader`	支持的二进制格式运行时权重加载
`GGUFParser`	GGUF 解析、元数据提取和 tensor 检查
`TransformerLayer`	W8A16 注意力与 FFN 执行
`KVCacheManager`	预分配缓存槽位与序列生命周期
`Result<T>`	宿主侧可失败 API 边界