BlockPool<T>
Scheduler::step()
PagedAttention
KV Cache Manager
生产就绪 v0.1.0

高性能大语言模型
推理引擎

基于 Rust 实现的 PagedAttention + 连续批处理技术
内存浪费 <5%,吞吐率提升 50%

<5%
内存浪费
+50%
吞吐率提升
121
测试通过

为生产级 LLM 服务打造

采用 Rust 实现的现代推理技术,提供极致的性能和可靠性。

🧠

分页式注意力

基于块的 KV Cache 管理,按需分配。消除内存碎片,实现高效的内存共享和 Copy-on-Write。

连续批处理

动态 prefill/decode 调度,具备优先级感知能力。最大化 GPU 利用率同时保持低延迟。

🛡️

内存压力感知

可配置的 OOM 预防机制,支持优雅降级。生产级别的错误处理和系统监控。

🔧

模块化架构

基于 Trait 的抽象设计,易于定制。CPU 调度器和 GPU 执行器的清晰分离。

🧪

全面测试覆盖

121 个测试用例,包括单元测试、属性测试和集成测试。属性测试验证关键不变量。

🚀

Rust 性能

零成本抽象和内存安全。无 GC 暂停,为服务场景提供可预测的性能表现。

内存效率对比

查看 PagedAttention 相比传统分配策略的优势。

静态分配
~40-60% 浪费
动态分配
~20-30% 浪费 (+20% 吞吐)
PagedAttention
<5% 浪费 (+50% 吞吐)

几分钟即可启动

只需几个命令,完成安装并运行首次推理。

bash
$ # 克隆仓库
$ git clone https://github.com/LessUp/hetero-paged-infer.git
$ cd hetero-paged-infer
$ # 构建 Release 版本
$ cargo build --release
$ # 运行推理
$ ./target/release/hetero-infer --input "你好,世界!" --max-tokens 50

了解更多

探索我们的完整文档,充分发挥 Hetero-Paged-Infer 的潜力。

🚀

快速入门指南

一步步完成安装和首次运行的详细说明。

🏗️

系统架构

深入了解系统设计、组件构成和设计原则。

📚

API 参考

完整的 API 文档,包含示例和最佳实践。

🖥️

生产部署

生产环境部署的最佳实践和配置建议。