SAGE

什么是 SAGE？

SAGE (Streaming-Augmented Generative Execution) 是一个数据流原生的推理框架，
专为构建模块化、可控、透明的LLM工作流而设计

轻松连接各类数据源

通过连接多种数据源（Socket、File、Kafka 等），实现日志、监控、交易等数据的实时接入，确保数据第一时间进入处理流水线，为后续分析奠定基础。

预定义或自定义编码算子

借助 SAGE 丰富的预定义算子或自定义算子，灵活实现数据清洗、聚合、转换、建模等逻辑，让开发者能够高效构建可扩展的数据处理流程。

问题输入

→

提问重构

→

向量检索

→

语料压缩

→

LLM生成

→

结果输出

快速组装数据处理Pipeline

使用声明式 API 将算子自由组装成 Pipeline，SAGE 自动完成数据流的编排与转换，无需关心底层细节，轻松实现复杂数据管道。

一键提交并高效运行

提交至 SAGE 执行引擎，系统自动完成资源分配与优化调度，保障作业高效运行，并支持实时与批量任务的稳定执行。

为什么选择 SAGE？

SAGE 是首个专为LLM推理设计的数据流框架，提供生产级AI管道解决方案

首创数据流范式

首个为LLM推理设计的数据流框架，提供原生的流式处理和异步执行能力

创新

生产级AI管道

可观测与容错机制，支持大规模部署，让AI应用从原型到生产无缝过渡

可靠

统一内存与计算

集成多种数据库，提供统一内存管理接口，支持分布式流推理

高效

弹性可靠运行

流感知的执行引擎，支持故障恢复和动态调度，确保AI服务的高可用性

稳定

使用示例

通过实际案例了解SAGE的强大能力

📰

文章监控系统

源源不断地从arxiv拔文章下来，然后提取标题、摘要，通过词袋匹配等方法初级筛选，再通过语义进行筛选，把用户感兴趣/关注领域的文章提供给用户

实时数据流处理多级筛选语义分析

🏠

分布式智能家居系统

展示SAGE的互联互通能力，通过IoT设备网络实现智能家居自动化。洗衣机器人与网络交互，环境监测器、洗衣机和晾衣架协调完成洗衣流程。

自动化流程环境感知设备互联

⚡

智能扩缩容聊天系统

展示SAGE的高资源利用能力，通过云基础设施扩缩容可视化。随着用户负载增加，系统智能扩容，实现资源优化和负载均衡。

智能扩缩容资源监控负载均衡

快速开始

完整的安装和使用指南，让您快速上手SAGE

环境要求

操作系统：Ubuntu ≥ 22.04
Python版本：≥ 3.11.10「推荐使用conda」

# 1. 创建并激活conda环境
conda create -n sage python=3.11.10
conda activate sage

# 2. 安装SAGE
pip install isage

# 3. 克隆SAGE仓库
git clone git@github.com:intellistream/SAGE.git
cd SAGE

# 4. 运行Hello World示例
python examples/tutorials/hello_world.py

# 1. 克隆仓库 「请提前确保装有conda」
git clone https://github.com/intellistream/SAGE.git
cd SAGE

# 2. 采用安装脚本快速安装
./quickstart.sh

# 3. 运行Hello World示例
python examples/tutorials/hello_world.py

查看完整安装文档

📊 Performance Leaderboard

Track SAGE's version evolution with real-world performance metrics. Compare performance across different versions, resource configurations, and standard RAG/Agent workloads.

Loading leaderboard data...

Loaded 0 entries • Showing 0 entries

SAGE Ver	SageLLM Ver	Model	Workload	Backend	Nodes	Parallelism	Latency (ms) ↓	QPS ↑	Memory (MB) ↓	Actions

Last updated: -

以下 8 类工作负载覆盖 RAG 流水线、调度策略、弹性扩缩、故障恢复等典型分布式推理场景，提供可重现的标准化评测基准。每项实验均在 2× A100 GPU、64 核 CPU、256 GB 内存环境下运行。

PipelineChain e2e_pipeline

🔗

端到端 RAG 流水线工作负载族。模拟完整的检索增强生成场景：用户请求依次经过 Embedding、向量检索、Rerank 和 LLM 生成各阶段，测量全流程端到端延迟与吞吐量。

1,000 reqs LLM 60% 40 req/s

ControlMix control_plane

⚖️

混合 LLM + Embedding 调度工作负载族。将聊天生成与向量编码请求混合发送至 Control Plane，评估统一调度器对两类异构请求的优先级决策、资源分配与 SLO 满足率。

1,000 reqs LLM 70% 50 req/s

NoisyNeighbor isolation

🔇

多租户干扰/隔离工作负载族。在同一实例中注入高强度干扰租户，测试 SAGE 对正常优先级请求的隔离保护能力，评估 p99 延迟劣化程度与资源抢占策略有效性。

600 reqs LLM 70% 50 req/s

ScaleFrontier scalability

📈

横向扩容吞吐/延迟工作负载族。逐步增加节点数与并行度，测量系统线性扩展能力。对比 FIFO、Priority、SLO-Aware、Hybrid 四种调度策略在不同规模下的性能表现。

1,500 reqs LLM 70% 70 req/s

HeteroResilience heterogeneity

🖥️

异构部署与故障恢复工作负载族。在 GPU/CPU 混合节点环境中发送请求，模拟节点故障与重启，评估系统的异构感知调度以及在局部故障下的自动恢复和请求重路由能力。

1,000 reqs LLM 60% 45 req/s

BurstTown burst_priority

💥

突发混合优先级事务工作负载族。模拟业务高峰期流量突增场景，混合高/低优先级请求以极高速率注入，评估系统在峰值负载下的优先级抢占调度与尾延迟控制能力。

1,400 reqs LLM 75% 90 req/s

ReconfigDrill reconfiguration

🔧

在线热重配置演练工作负载族。在持续负载下触发引擎参数变更（并行度、模型切换、资源限额调整），测量重配置操作对服务延迟的瞬态影响与恢复时间，验证零停机重配置能力。

900 reqs LLM 65% 55 req/s

RecoverySoak recovery

🛡️

故障恢复长时浸泡工作负载族。在长时间连续负载中周期性注入节点崩溃、网络分区等故障，评估系统从各类故障状态的检测速度、恢复完整性与浸泡期间 SLO 达标率。

1,200 reqs LLM 70% 65 req/s

查看完整基准测试

开发团队与合作

来自华中科技大学的IntelliStream课题组

IntelliStream课题组

华中科技大学计算机科学与技术学院

专注于分布式系统与智能数据流处理研究

地址：华中科技大学计算机学院408室

联系我们

团队负责人：张书豪教授

shuhao_zhang@hust.edu.cn

420444843 633549582「SAGE讨论群」

教师个人主页

SAGE Slack频道

研究方向

应用开发方向-APP小组

APP小组以SAGE为核心研究与应用平台，聚焦大语言模型相关算法的研究，我们的方向涵盖RAG、智能Agent、长上下文建模、多模态融合、参数高效微调与模型压缩、以及对齐与可控生成等方向。

中间件方向-Middleware小组

Middleware小组专注于为SAGE平台提供高效的中间件解决方案，我们负责构建和优化核心技术，包括向量数据库、大模型记忆组件以及高性能向量计算引擎。

系统运行方向-Kernel小组

Kernel小组致力于打造SAGE系统的高性能分布式流计算引擎，我们旨在提供高效健壮的运行时环境，具体涵盖从实时预处理、复杂事件处理，到分布式模型推理、结果生成与分发的完整流水线生命周期。

如何贡献

加入SAGE社区，共同构建下一代AI基础设施

代码提交

参与SAGE Kernel、Middleware、Application、Tools等版块的开发工作

新算子和连接器开发
性能优化和bug修复
测试用例编写
代码审查和重构

查看代码仓库

社区建设

参与SAGE 的社区讨论、问题解答、经验分享

问题反馈和讨论
使用经验分享
社区活动组织
新用户指导

加入社区

创新想法

提出新的功能建议，架构层面的改进，创新新的应用场景

新功能需求提议
架构设计建议
创新应用场景
技术路线讨论

提交想法

贡献流程

Fork 仓库

fork SAGE仓库到您的账户

→

创建分支

为您的改动创建新的分支

→

提交更改

编写、测试并提交您的代码

→

创建PR

创建PR并等待团队审查