Tiny-LLMCUDA 原生推理引擎

面向聚焦型 Transformer 推理，提供 W8A16 kernel、显式 KV Cache 管理，以及更低维护成本的仓库表面。

⚡

W8A16 推理

INT8 权重 + FP16 激活，保持精简的 CUDA 运行时路径。

📦

`InferenceEngine::load()` 面向当前引擎支持的二进制运行时格式。

🔎

保留 GGUF 解析、元数据提取和 tensor 检查能力，但不再假装它就是运行时加载路径。

🧠

预分配序列槽位，让自回归解码更可预测。

🛡️

宿主侧失败显式可见，便于排查和收敛。

🧪

GoogleTest 与 RapidCheck 覆盖核心加载、缓存和生成路径。

能力	状态	说明
二进制运行时加载	支持	`InferenceEngine::load()` 使用这条路径
GGUF 解析与检查	支持	使用 `GGUFParser` 读取元数据和 tensor
直接 GGUF 运行时加载	不支持	运行时加载器会拒绝 `.gguf` 路径