Hetero-Paged-Infer — 高性能大语言模型推理引擎

核心特性

为生产级 LLM 服务打造

采用 Rust 实现的现代推理技术，提供极致的性能和可靠性。

🧠

分页式注意力

基于块的 KV Cache 管理，按需分配。消除内存碎片，实现高效的内存共享和 Copy-on-Write。

⚡

连续批处理

动态 prefill/decode 调度，具备优先级感知能力。最大化 GPU 利用率同时保持低延迟。

🛡️

内存压力感知

可配置的 OOM 预防机制，支持优雅降级。生产级别的错误处理和系统监控。

🔧

模块化架构

基于 Trait 的抽象设计，易于定制。CPU 调度器和 GPU 执行器的清晰分离。

🧪

全面测试覆盖

121 个测试用例，包括单元测试、属性测试和集成测试。属性测试验证关键不变量。

🚀

Rust 性能

零成本抽象和内存安全。无 GC 暂停，为服务场景提供可预测的性能表现。

性能表现

内存效率对比

查看 PagedAttention 相比传统分配策略的优势。

静态分配

~40-60% 浪费

动态分配

~20-30% 浪费 (+20% 吞吐)

PagedAttention
<5% 浪费 (+50% 吞吐)

快速开始

几分钟即可启动

只需几个命令，完成安装并运行首次推理。

bash

$ # 克隆仓库

$ git clone https://github.com/LessUp/hetero-paged-infer.git

$ cd hetero-paged-infer

$ # 构建 Release 版本

$ cargo build --release

$ # 运行推理

$ ./target/release/hetero-infer --input "你好，世界！" --max-tokens 50

文档中心

了解更多

探索我们的完整文档，充分发挥 Hetero-Paged-Infer 的潜力。

🚀

快速入门指南

一步步完成安装和首次运行的详细说明。

→

🏗️

系统架构

深入了解系统设计、组件构成和设计原则。

→

📚

API 参考

完整的 API 文档，包含示例和最佳实践。

→

🖥️

生产部署

生产环境部署的最佳实践和配置建议。

→

高性能大语言模型 推理引擎