SAGE Logo SAGE

高性能分布式推理框架
数据流原生的模块化、透明、可控的LLM工作流推理框架
让AI应用开发变得简单、高效、可观测

统一入口

为避免首页过多、信息重复,对外入口按职责拆分:产品看 SAGE,团队看 IntelliStream,代码看 GitHub。

sage.org.ai

SAGE 官方产品首页与文档主入口。第一次访问、安装、学习和查文档,都从这里开始。

vllm-hust.sage.org.ai

vLLM-HUST 华科 fork 版本入口,聚焦推理引擎优化、工作站形态与工程化实验。

lab.sage.org.ai

IntelliStream 团队与研究门户,用于展示更广的项目版图,而不是承担 SAGE 产品首页职责。

GitHub Profile

团队代码入口,用于仓库浏览、Issue、PR、发布和开发协作。

什么是 SAGE?

SAGE (Streaming-Augmented Generative Execution) 是一个数据流原生的推理框架,
专为构建模块化、可控、透明的LLM工作流而设计

1

轻松连接各类数据源

通过连接多种数据源(Socket、File、Kafka 等),实现日志、监控、交易等数据的实时接入,确保数据第一时间进入处理流水线,为后续分析奠定基础。

2

预定义或自定义编码算子

借助 SAGE 丰富的预定义算子或自定义算子,灵活实现数据清洗、聚合、转换、建模等逻辑,让开发者能够高效构建可扩展的数据处理流程。

问题输入
提问重构
语料压缩
LLM生成
结果输出
3

快速组装数据处理Pipeline

使用声明式 API 将算子自由组装成 Pipeline,SAGE 自动完成数据流的编排与转换,无需关心底层细节,轻松实现复杂数据管道。

4

一键提交并高效运行

提交至 SAGE 执行引擎,系统自动完成资源分配与优化调度,保障作业高效运行,并支持实时与批量任务的稳定执行。

为什么选择 SAGE?

SAGE 是首个专为LLM推理设计的数据流框架,提供生产级AI管道解决方案

首创数据流范式

首个为LLM推理设计的数据流框架,提供原生的流式处理和异步执行能力

创新

生产级AI管道

可观测与容错机制,支持大规模部署,让AI应用从原型到生产无缝过渡

可靠

统一内存与计算

集成多种数据库,提供统一内存管理接口,支持分布式流推理

高效

弹性可靠运行

流感知的执行引擎,支持故障恢复和动态调度,确保AI服务的高可用性

稳定

使用示例

通过实际案例了解SAGE的强大能力

📰

文章监控系统

源源不断地从arxiv拔文章下来,然后提取标题、摘要,通过词袋匹配等方法初级筛选,再通过语义进行筛选,把用户感兴趣/关注领域的文章提供给用户

实时数据流处理 多级筛选 语义分析
🏠

分布式智能家居系统

展示SAGE的互联互通能力,通过IoT设备网络实现智能家居自动化。洗衣机器人与网络交互,环境监测器、洗衣机和晾衣架协调完成洗衣流程。

自动化流程 环境感知 设备互联

智能扩缩容聊天系统

展示SAGE的高资源利用能力,通过云基础设施扩缩容可视化。随着用户负载增加,系统智能扩容,实现资源优化和负载均衡。

智能扩缩容 资源监控 负载均衡

快速开始

完整的安装和使用指南,让您快速上手SAGE

环境要求

  • 操作系统:Ubuntu ≥ 22.04
  • Python版本:≥ 3.11.10「推荐使用conda」
# 1. 创建并激活conda环境
conda create -n sage python=3.11.10
conda activate sage

# 2. 安装SAGE
pip install isage

# 3. 克隆SAGE仓库
git clone git@github.com:intellistream/SAGE.git
cd SAGE

# 4. 运行Hello World示例
python examples/tutorials/hello_world.py
# 1. 克隆仓库 「请提前确保装有conda」
git clone https://github.com/intellistream/SAGE.git
cd SAGE

# 2. 采用安装脚本快速安装
./quickstart.sh

# 3. 运行Hello World示例
python examples/tutorials/hello_world.py
查看完整安装文档

📊 Performance Leaderboard

Track SAGE's version evolution with real-world performance metrics. Compare performance across different versions, resource configurations, and standard RAG/Agent workloads.

Loading leaderboard data...

以下 8 类工作负载覆盖 RAG 流水线、调度策略、弹性扩缩、故障恢复等典型分布式推理场景,提供可重现的标准化评测基准。每项实验均在 2× A100 GPU、64 核 CPU、256 GB 内存环境下运行。

Q1
PipelineChain e2e_pipeline
🔗

端到端 RAG 流水线工作负载族。模拟完整的检索增强生成场景:用户请求依次经过 Embedding、向量检索、Rerank 和 LLM 生成各阶段,测量全流程端到端延迟与吞吐量。

📦1,000 reqs 🤖LLM 60% 40 req/s
Q2
ControlMix control_plane
⚖️

混合 LLM + Embedding 调度工作负载族。将聊天生成与向量编码请求混合发送至 Control Plane,评估统一调度器对两类异构请求的优先级决策、资源分配与 SLO 满足率。

📦1,000 reqs 🤖LLM 70% 50 req/s
Q3
NoisyNeighbor isolation
🔇

多租户干扰/隔离工作负载族。在同一实例中注入高强度干扰租户,测试 SAGE 对正常优先级请求的隔离保护能力,评估 p99 延迟劣化程度与资源抢占策略有效性。

📦600 reqs 🤖LLM 70% 50 req/s
Q4
ScaleFrontier scalability
📈

横向扩容吞吐/延迟工作负载族。逐步增加节点数与并行度,测量系统线性扩展能力。对比 FIFO、Priority、SLO-Aware、Hybrid 四种调度策略在不同规模下的性能表现。

📦1,500 reqs 🤖LLM 70% 70 req/s
Q5
HeteroResilience heterogeneity
🖥️

异构部署与故障恢复工作负载族。在 GPU/CPU 混合节点环境中发送请求,模拟节点故障与重启,评估系统的异构感知调度以及在局部故障下的自动恢复和请求重路由能力。

📦1,000 reqs 🤖LLM 60% 45 req/s
Q6
BurstTown burst_priority
💥

突发混合优先级事务工作负载族。模拟业务高峰期流量突增场景,混合高/低优先级请求以极高速率注入,评估系统在峰值负载下的优先级抢占调度与尾延迟控制能力。

📦1,400 reqs 🤖LLM 75% 90 req/s
Q7
ReconfigDrill reconfiguration
🔧

在线热重配置演练工作负载族。在持续负载下触发引擎参数变更(并行度、模型切换、资源限额调整),测量重配置操作对服务延迟的瞬态影响与恢复时间,验证零停机重配置能力。

📦900 reqs 🤖LLM 65% 55 req/s
Q8
RecoverySoak recovery
🛡️

故障恢复长时浸泡工作负载族。在长时间连续负载中周期性注入节点崩溃、网络分区等故障,评估系统从各类故障状态的检测速度、恢复完整性与浸泡期间 SLO 达标率。

📦1,200 reqs 🤖LLM 70% 65 req/s
查看完整基准测试

开发团队与合作

来自华中科技大学的IntelliStream课题组

Team Photo

IntelliStream课题组

华中科技大学计算机科学与技术学院

专注于分布式系统与智能数据流处理研究

地址:华中科技大学计算机学院408室

联系我们

张书豪教授

团队负责人:张书豪 教授

shuhao_zhang@hust.edu.cn
420444843 633549582「SAGE讨论群」

研究方向

应用开发方向-APP小组

APP小组以SAGE为核心研究与应用平台,聚焦大语言模型相关算法的研究,我们的方向涵盖RAG、智能Agent、长上下文建模、多模态融合、参数高效微调与模型压缩、以及对齐与可控生成等方向。

中间件方向-Middleware小组

Middleware小组专注于为SAGE平台提供高效的中间件解决方案,我们负责构建和优化核心技术,包括向量数据库、大模型记忆组件以及高性能向量计算引擎。

系统运行方向-Kernel小组

Kernel小组致力于打造SAGE系统的高性能分布式流计算引擎,我们旨在提供高效健壮的运行时环境,具体涵盖从实时预处理、复杂事件处理,到分布式模型推理、结果生成与分发的完整流水线生命周期。

快速上手演示

从安装到本地运行、分布式部署、API服务 —— 看看SAGE能做什么

快速安装

本地RAG Pipeline

Flownet分布式部署

OpenAI兼容Gateway

如何贡献

加入SAGE社区,共同构建下一代AI基础设施

代码提交

参与SAGE Kernel、Middleware、Application、Tools等版块的开发工作

  • 新算子和连接器开发
  • 性能优化和bug修复
  • 测试用例编写
  • 代码审查和重构
查看代码仓库

社区建设

参与SAGE 的社区讨论、问题解答、经验分享

  • 问题反馈和讨论
  • 使用经验分享
  • 社区活动组织
  • 新用户指导
加入社区

创新想法

提出新的功能建议,架构层面的改进,创新新的应用场景

  • 新功能需求提议
  • 架构设计建议
  • 创新应用场景
  • 技术路线讨论
提交想法

贡献流程

1

Fork 仓库

fork SAGE仓库到您的账户

2

创建分支

为您的改动创建新的分支

3

提交更改

编写、测试并提交您的代码

4

创建PR

创建PR并等待团队审查

100+
内置算子
10x
性能提升
5+
数据源类型
扩展可能