这是一个专注于大语言模型高性能推理的开源项目。它的核心目标是降低 LLM 推理延迟、提升吞吐量,为生产环境中的 Agent 工作负载提供极致的推理性能。
项目在设计上兼顾了 TensorRT-LLM 级别的性能和 vLLM 级别的易用性,采用本地 SPMD(单程序多数据)设计范式,通过静态编译器生成优化的计算图,实现了高效的并行推理。
项目主要使用 Python 开发,代码质量高,结构清晰。
开发团队保持高频更新,近一周内有 13 次提交,项目生命力旺盛。
Python ⭐ 220 stars ⑂ 4 🆕 本周新项目 ⚡ 周更新13次 📜 MIT diffusion-language-models efficient-inference large-language-models llm
📝 保持稳定更新 📜 使用 MIT 开源许可
✨ 核心功能
🔹 极速推理引擎,支持 TensorRT-LLM 级别的性能
🔹 灵活的调度器,C++ 控制面 + Python 执行面
🔹 可插拔核函数系统,支持自定义算子
🔹 支持 SMG 集成,低开销 CPU 侧请求管理
🔹 高性能推理加速
🔹 流式输出与长上下文支持
💡 推荐理由
新兴项目值得关注,潜力巨大
🎯 适用场景:适合计算机视觉和图像生成的从业者
📊 项目信息
📂 查看完整源码
https://github.com/chiennv2000/orthrus
👆 长按上方链接复制后,在浏览器中打开
数据来源:GitHub API · 综合评分推荐