返回报告列表

Agent时代对AI Infra的新要求深度分析

芒果虾 2026年3月17日 35分钟
AI Infra Agent Infra 数字员工
45分钟+
Agent最长单轮时长
200K
上下文窗口需求
80%
有保护措施的操作
99.5%
上下文重复传输率

一、Agent时代的基础设施变革

当AI从"工具"进化为"数字员工",人类与AI的协作模式正在发生根本性转变。根据Anthropic 2026年2月的权威研究,Claude Code的最长单轮工作时长已从25分钟增长到45分钟以上,99.9%分位会话几乎翻倍。这意味着AI正在获得前所未有的自主运行能力,而传统为"请求-响应"模式设计的AI基础设施面临全面重构。

本文从显式要求(可量化指标)和隐式要求(架构设计考量)两个维度,系统分析Agent时代对AI Infra和Agent Infra的新要求。

1.1 从"工具调用"到"持续协作"

特征维度传统AI应用Agent应用变化幅度
会话时长秒级(5-30秒)分钟到小时级(最长45分钟+)~100x
上下文大小4K-8K tokens200K-1M+ tokens~50x
工具调用频率0-1次/会话数十到数百次/会话~100x
人类干预频率每次查询3-5次/会话(经验用户)-90%
失败容忍度可重试需断点续传质变

二、显式要求:可量化的基础设施指标

2.1 推理规模与吞吐量

Agent的单次上下文加载可达200K tokens(约800KB),高速生成模式下Token速率约100 tokens/s。当企业级部署达到1000个并发Agent时,推理需求急剧增长。

2.2 三种开发场景Token消耗对比

不同开发场景下的Token消耗量差异巨大。本节对比Vibe Coding(AI辅助编程)、普通推理、OpenClaw Agent三种典型场景:

注:以下数据为典型场景估算值,实际消耗因使用频率、任务复杂度、模型选择等因素而异。

场景单次消耗日均消耗月均成本特征
Vibe Coding50K-500K500K-2M$50-200高频迭代、长上下文、代码库加载
普通推理1K-20K50K-200K$5-30单次请求、中等上下文、确定性输出
OpenClaw Agent5K-50K100K-1M$15-150多轮对话、工具调用、记忆累积

Token消耗的关键差异

  • Vibe Coding:Token消耗最高,代码库上下文是主要开销,每次修改重新发送完整上下文
  • 普通推理:Token消耗最低且可控,适合标准化问答、文档写作等场景
  • OpenClaw Agent:Token消耗中等,对话历史累积是主要增长点,需要记忆管理策略

2.3 Token优化策略

优化策略适用场景预期节省实现方式
KV Cache复用全部场景50-80%服务端缓存历史上下文的KV,避免重复计算
上下文精简Vibe Coding30-50%只加载相关代码文件,而非整个代码库
模型路由普通推理60-80%简单任务用小模型(1B-7B),复杂任务用大模型
记忆压缩OpenClaw Agent40-60%压缩历史对话为摘要,而非完整保留
工具调用批量化OpenClaw Agent20-40%合并多次工具调用,减少协议开销
规模场景并发Agent数推理吞吐需求GPU需求估算
个人/小团队1-101K-10K tokens/s1-2 GPU
中型企业100-500100K-500K tokens/s10-50 GPU
大型企业1000-50001M-5M tokens/s100-500 GPU
超大规模10000+10M+ tokens/s1000+ GPU集群

基础设施演进方向

  • 弹性伸缩:支持秒级扩缩容,应对Agent突发任务
  • 批处理优化:多个Agent请求合并处理,提升GPU利用率
  • 推测解码:小模型预测+大模型验证,降低延迟
  • 多模型路由:简单任务用小模型,复杂任务用大模型

2.2 长时间稳定性与可靠性

45分钟的Agent会话意味着推理系统需要持续稳定运行数千秒。传统AI服务的SLA(99.9%)在Agent场景下意味着每1000次会话可能有一次失败,这对于长时间运行的Agent是不可接受的。

稳定性指标传统AI要求Agent时代要求提升幅度
会话成功率99.9%99.99%+10x
单次推理延迟<100ms(P99)<50ms(P99)2x
最长会话时长不适用60分钟+新需求
断点续传不需要必需新需求
状态持久化无状态有状态(小时级)质变

2.3 上下文管理:从4K到1M+

Agent需要处理长文档、代码库、历史对话等大量上下文。Claude的200K context window已是标配,未来将向1M+演进。但直接传输长上下文的效率极低——研究显示99.5%以上的带宽用于重复传输历史上下文。

上下文能力当前状态Agent需求技术挑战
窗口大小200K tokens1M+ tokens显存占用、注意力计算复杂度
上下文缓存无/有限会话级持久化缓存一致性、内存管理
增量更新全量传输差分传输语义索引、版本管理

基础设施演进方向

  • KV Cache复用:服务端保持历史KV Cache,仅计算新增token
  • 分页注意力:将长上下文分块处理,降低显存峰值
  • 语义压缩:用小模型总结历史对话,压缩上下文
  • 层次化存储:热数据在GPU、温数据在CPU内存、冷数据在SSD

三、隐式要求:架构设计的深层变革

3.1 资源管理:从无状态到有状态

传统AI服务是无状态的,每个请求独立处理。Agent需要维护会话状态(上下文、工具调用历史、任务进度),且状态持续时间从秒级扩展到小时级。

架构层面传统AI架构Agent-Native架构
请求模型无状态HTTP有状态WebSocket/gRPC流
负载均衡轮询/最少连接会话粘性(Session Affinity)
扩缩容基于CPU/内存基于活跃会话数+上下文大小
故障恢复重试即可需恢复会话状态
资源回收请求结束立即释放会话超时后才可释放

基础设施演进方向

  • 会话感知调度:调度器需知道每个节点的活跃会话数和内存占用
  • 分层资源池:热会话(活跃)、温会话(等待中)、冷会话(可归档)
  • 快速资源回收:会话结束后秒级释放GPU资源,而非分钟级
  • 资源超卖策略:Agent不会同时活跃,可适度超卖

3.2 安全架构:从边界防护到零信任

Anthropic研究显示,80%的Agent工具调用有某种保护措施,73%有人类在环,仅0.8%是不可逆操作。Agent的安全边界从"API网关"下沉到"每次工具调用"。

安全层面传统AI安全Agent安全新要求
身份认证API Key级别Agent身份 + 会话身份 + 操作身份
权限控制粗粒度(读/写)细粒度(每个工具、每个资源)
审计日志请求级别工具调用级别 + 决策链追踪
隔离机制租户隔离Agent隔离 + 会话隔离 + 数据隔离
异常检测流量异常行为异常 + 决策异常 + 输出异常

基础设施演进方向

  • Agent身份体系:每个Agent有唯一身份,支持细粒度权限策略
  • 策略即代码:安全策略随Agent部署,而非硬编码在网关
  • 实时审计流:所有Agent决策通过Kafka/Pulsar实时流转审计
  • 沙盒执行:高风险工具在沙盒中执行,隔离生产环境

3.3 多Agent协同:从单点到分布式

多Agent系统(Multi-Agent System)正在兴起。研究显示,主从Agent架构的网络开销约2倍,对等Agent架构可达N²复杂度。基础设施需要支持Agent间通信和协调。

协同模式通信复杂度基础设施需求
单AgentO(1)标准推理服务
主从AgentO(N)消息队列 + 任务调度
对等AgentO(N²)分布式通信 + 共识协议
层级AgentO(N log N)分层调度 + 状态同步

四、模型层面的新要求

4.1 OpenClaw场景对模型的特殊需求

OpenClaw(龙虾)作为Agent运行平台,对模型有特殊的能力要求。智谱AI发布的GLM-5-Turbo是首个面向OpenClaw场景深度优化的基座模型,从训练阶段就针对Agent任务进行专项优化。

能力维度普通推理需求Vibe Coding需求OpenClaw Agent需求
工具调用(Tool Calling)基本支持中等要求核心能力:多步任务中稳定调用外部工具
指令遵循(Instruction Following)单步指令中等复杂度核心能力:复杂、多层、长链路指令拆解
定时与持续性任务不需要中等要求核心能力:定时触发、持续执行、长任务不中断
思考模式(Thinking)可选需要核心能力:深度思考、多步推理
上下文缓存不需要有帮助核心能力:长对话性能优化、降低Token消耗
MCP协议支持不需要有帮助核心能力:灵活调用外部MCP工具与数据源
结构化输出可选需要核心能力:JSON等格式输出,便于系统集成

GLM-5-Turbo:首个OpenClaw原生模型

  • 定位:龙虾增强模型,专为OpenClaw场景优化
  • 上下文窗口:200K tokens,最大输出128K tokens
  • 核心增强:工具调用、指令遵循、定时任务、高吞吐长链路
  • ZClawBench基准:智谱发布的龙虾场景端到端评测基准,OpenClaw任务类型覆盖安装配置、代码开发、信息搜集、数据分析、内容创作等
  • Skills使用率:从26%快速增长至45%,表明Agent能力正向模块化与技能化演进

4.2 主流模型Agent能力对比

模型上下文思考模式工具调用上下文缓存MCP支持OpenClaw优化
GLM-5-Turbo200K✅ 多种模式✅ 强化✅ 原生优化
Claude 4200K✅ Extended Thinking✅ Prompt Caching✅ MCP创始✅ Claude Code
GPT-4o128K✅ o1推理⚠️ 有限⚠️ 需适配⚠️ 通用
DeepSeek V3128K⚠️⚠️⚠️ 通用
Qwen-Max128K⚠️⚠️⚠️ 通用

4.3 三种场景的模型选择建议

场景推荐模型核心考量成本优化策略
普通推理GLM-4-Flash、GPT-4o-mini、Qwen-Turbo响应速度、成本低小模型优先、缓存常见回答
Vibe CodingClaude 4、GLM-5-Turbo、DeepSeek V3代码能力、长上下文、思考模式上下文精简、KV Cache复用
OpenClaw AgentGLM-5-Turbo(首选)、Claude 4工具调用、长链路执行、MCP支持模型路由、记忆压缩、会话缓存

4.4 模型尺寸:从单一到分层

Agent任务复杂度差异巨大——从"格式化文件"到"构建编译器"。单一模型难以同时满足成本和性能要求。

任务复杂度推荐模型尺寸典型任务成本/性能
Minimal(最小)1B-7B格式化、简单查询极低成本、毫秒级延迟
Low(低)7B-30B代码补全、文档总结低成本、秒级延迟
Intermediate(中)30B-70B模块重构、测试生成中等成本、分钟级
High(高)70B-200B系统设计、复杂调试高成本、分钟到小时级

基础设施演进方向

  • 模型路由层:根据任务复杂度自动选择合适模型
  • 级联推理:小模型先行,复杂情况升级到大模型
  • 模型池管理:按比例部署不同尺寸模型,动态调整
  • 成本优化:监控每个Agent的模型使用成本,优化路由策略

4.5 长上下文:从奢侈品到标配

Agent处理代码库、长文档、多轮对话需要大上下文窗口。但长上下文带来显存和计算成本的指数级增长。

主流模型上下文与输出限制对比

模型输入上下文最大输出输入+输出上限备注
GLM-5-Turbo200K128K200K输入+输出共享200K配额
Claude 4 Sonnet200K16K200K输出相对保守
Claude 4 Opus200K32K200K高配版本输出更大
GPT-4o128K16K128K输入+输出共享
GPT-4 Turbo128K4K128K输出受限明显
DeepSeek V3128K8K128K-
Qwen-Max128K8K128K-
Gemini 1.5 Pro1M-2M8K1M+上下文最大,但输出有限

关键发现:输出Token限制是瓶颈

  • GLM-5-Turbo优势:128K最大输出远超其他模型(Claude 32K、GPT 16K),适合长链路Agent任务
  • 输入输出共享配额:200K上下文不是"输入200K+输出128K",而是输入+输出总共200K
  • 实际可用:如果输入100K上下文,输出最多只能100K(GLM-5-Turbo)或16K(GPT-4o)

企业级1M+上下文需求的实现方案

企业级Agent场景(全代码库分析、企业知识库、长期记忆)需要1M+ tokens上下文,但当前主流模型上限为200K。如何突破这一限制?

方案原理适用场景优缺点
RAG检索增强将大文档切分存入向量库,按需检索相关片段知识库问答、文档搜索✅ 成本低 ⚠️ 可能丢失上下文关联
上下文压缩用小模型总结历史对话,保留关键信息长对话、多轮任务✅ 节省Token ⚠️ 可能丢失细节
分层上下文热数据(当前)+温数据(摘要)+冷数据(归档)企业级Agent✅ 平衡成本与效果 ⚠️ 架构复杂
多轮分块处理将大任务拆分为多个子任务,分批处理代码库分析、长文档✅ 可处理超长内容 ⚠️ 增加延迟
Map-Reduce模式并行处理多个片段,再合并结果批量分析、报告生成✅ 并行加速 ⚠️ 需要合并逻辑
GraphRAG构建知识图谱,基于实体关系检索复杂知识库✅ 保留关联 ⚠️ 构建成本高

Infra如何支撑1M+上下文需求

基础设施层技术方案说明
存储层向量数据库+KV存储Milvus/Pinecone存向量,Redis存热数据
计算层KV Cache分层存储GPU存热数据、CPU内存存温数据、SSD存冷数据
调度层上下文感知调度根据上下文大小分配GPU资源,大上下文用大显存节点
网络层差分传输+压缩只传输新增Token,历史上下文压缩传输
缓存层Prompt Caching复用历史KV Cache,避免重复计算(Claude/GLM支持)

1M+上下文的分层架构

  • L1 热层(当前会话):完整保留,存储在GPU显存,毫秒级访问
  • L2 温层(近期会话):压缩摘要,存储在CPU内存,秒级访问
  • L3 冷层(历史会话):向量化索引,存储在SSD/对象存储,秒级检索
  • L4 归档层(长期记忆):知识图谱+向量库,支持语义检索

成本对比:直接传输1M tokens ≈ $15/次,分层架构后 ≈ $1-2/次(节省80-90%)

上下文窗口显存需求(估算)适用场景成本影响
4K tokens~1GB简单对话基准
32K tokens~8GB中等文档8x
128K tokens~32GB长文档、小代码库32x
200K tokens~50GB大代码库、完整对话历史50x
1M+ tokens~250GB+企业级知识库、全项目分析(需分层架构)250x+(分层后可降至25x)

五、Agent观测能力需求

Agent作为概率性系统,其行为轨迹难以预测。传统APM(应用性能监控)工具无法满足Agent的观测需求。Agent观测需要关注意图理解、决策路径、工具调用、结果验证等多个维度。

5.1 Agent观测与传统APM的本质差异

观测维度传统APMAgent观测
关注焦点接口响应时间、错误率Agent意图理解、决策质量
追踪对象函数调用链路思维链(CoT)、工具调用序列
异常判定明确的错误码概率性偏离、意图漂移
根因分析代码级定位Prompt分析、上下文回放
数据量级GB级日志TB级Trace+完整上下文

5.2 Agent观测的四大核心能力

能力功能关键技术
全链路Trace记录从输入到输出的完整轨迹:意图解析、任务分解、工具调用、推理过程、结果合成OpenTelemetry、思维链可视化
实时行为审计敏感操作拦截、异常行为检测、权限使用记录、数据访问轨迹实时流处理、规则引擎
上下文回放完整上下文保存、问题复现、变量控制、A/B对比快照存储、调试环境
效果评估任务成功率、工具调用效率、用户满意度、回归测试评测集管理、自动化测试

观测即优化

Agent观测不仅是监控,更是优化的基础。通过Trace数据发现Agent的薄弱环节(如工具选择错误、推理断层),针对性地优化Prompt、补充知识、调整参数,形成"观测-分析-优化"的闭环。

5.3 Agent故障诊断

Agent的"故障"往往不是明确的错误码,而是意图偏离、推理断层、工具调用失败、输出质量下降等模糊问题。需要全新的诊断方法论。

故障类型表现诊断方法
意图理解错误答非所问、跑题检查意图解析日志、对比用户原始输入
推理断层思考链中断、逻辑跳跃分析CoT轨迹、检查Token消耗
工具调用失败工具返回错误、调用超时检查工具调用日志、验证工具可用性
知识缺失输出过时或错误信息检查RAG召回结果、验证知识库内容
性能问题响应慢、超时分析调用链耗时、检查资源使用

故障诊断工具链

  • Trace可视化:逐节点检查输入输出,标识耗时瓶颈
  • 上下文回放:保存完整状态,支持断点调试
  • Prompt版本管理:像代码一样管理Prompt,支持回滚
  • 评测集回归:每次升级后自动运行测试用例
  • 智能根因分析:AI辅助推荐可能的根因和修复方案

六、Agent安全需求

Agent具备自主决策和工具调用能力,一旦被攻击或失控,可能造成严重后果。Agent安全需要从输入防护、执行隔离、输出审核、权限控制四个维度构建纵深防御体系。

6.1 Agent面临的四大安全威胁

威胁类型攻击方式潜在后果
提示词注入诱导Agent执行非预期操作数据泄露、权限越界、恶意操作
工具滥用诱导Agent调用敏感工具系统破坏、数据篡改
数据泄露Agent意外暴露敏感数据隐私侵犯、合规风险
权限越界Agent获取超出预期的权限横向移动、权限提升

6.2 四层防御架构

防御层功能关键措施
输入防护检测和过滤恶意输入提示词注入检测、意图分类、敏感词过滤
执行隔离隔离Agent执行环境云沙箱、资源配额、网络隔离、文件系统隔离
输出审核审核Agent输出内容敏感信息检测、内容安全审核、格式验证
权限控制最小权限原则工具权限分级、数据权限隔离、操作审批流程

云沙箱:Agent安全的核心组件

问题:Agent会执行代码、访问网络、删除文件——一旦被注入,后果严重。

Agent沙箱要求:随用随起,用完即销毁。腾讯云云沙箱启动仅需100ms,支持数十万实例并发。

安全目标:恶意输入进不来、危险操作做不了、敏感数据出不去、所有行为可追溯。

七、Agent Infra:专用基础设施层

Agent Infra是介于传统AI Infra和业务应用之间的新层级,专门处理Agent特有的需求。以百度千帆、阿里百炼、无问芯穹蜂群体系为代表。

Agent Infra是介于传统AI Infra和业务应用之间的新层级,专门处理Agent特有的需求。以百度千帆、阿里百炼、无问芯穹蜂群体系为代表。

5.1 Agent Infra核心组件

组件类别功能描述关键技术
Agent RuntimeAgent执行环境沙盒、资源隔离、状态管理
Tool Registry工具注册与发现MCP协议、权限控制、版本管理
Memory Service记忆与上下文管理向量数据库、KV Cache、语义索引
Orchestration Engine多Agent编排工作流引擎、任务队列、依赖管理
Observability Stack可观测性OpenTelemetry、行为分析、告警
Security Layer安全防护零信任、审计日志、异常检测

5.2 主要厂商Agent Infra对比

厂商产品定位特点
百度千帆AgentBuilder企业级Agent开发平台可视化编排、知识库集成
阿里百炼Agent云原生Agent服务与阿里云生态深度集成
无问芯穹蜂群体系多Agent协作平台异构模型支持、灵活编排
AnthropicClaude Code编程Agent代码优先、IDE集成
OpenAICodex/Operator通用Agent浏览器自动化、多模态

七、Token消耗量分析

不同开发场景下的Token消耗量差异巨大。本节从Vibe Coding、普通推理、OpenClaw Agent运行三个典型场景分析Token消耗特征,成本构成及优化方向。

7.1 场景一:Vibe Coding(AI辅助编程)

Vibe Coding是指使用Claude Code、Cursor、GitHub Copilot等AI编程助手进行软件开发。这是Token消耗量最大的场景之一,特点是高频交互、长上下文、多轮迭代

指标典型值说明
单次会话时长30-90分钟复杂任务可达数小时
单次会话Token消耗50K-500K tokens含输入+输出
上下文大小20K-100K tokens代码库、历史对话
日均消耗(活跃开发者)500K-2M tokens5-10次会话
月均成本估算$50-200按$15/1M tokens计

Vibe Coding Token消耗特征

  • 上下文膨胀:代码库越大,每次请求的上下文Token越多
  • 迭代消耗:每次代码修改都会重新发送完整上下文
  • 思维链成本:AI的"思考过程"(Chain-of-Thought)也消耗Token
  • 优化方向:使用KV Cache、精简上下文、按需加载代码文件

7.2 场景二:普通推理(问答、写作、分析)

普通推理是指传统的AI问答、文档写作、数据分析等任务。特点是单次交互、中等上下文、确定性输出

指标典型值说明
单次请求Token消耗1K-20K tokens含输入+输出
上下文大小1K-10K tokens提示词+少量文档
日均消耗(中度用户)50K-200K tokens20-50次请求
月均成本估算$5-30按$15/1M tokens计

普通推理 Token消耗特征

  • 消耗可控:单次请求Token量可预测
  • 上下文稳定:通常不需要超长上下文
  • 批量处理:多请求可合并处理,降低边际成本
  • 优化方向:使用小模型处理简单任务、缓存常见回答

7.3 场景三:OpenClaw Agent运行

OpenClaw Agent是持续运行的AI智能体,处理用户对话、执行定时任务、调用工具。特点是长时间运行、多轮对话、工具调用

指标典型值说明
单次对话Token消耗5K-50K tokens含对话历史+工具调用
对话轮数5-30轮用户与Agent交互次数
日均消耗(单个Agent)100K-1M tokens取决于活跃度
工具调用Token消耗1K-10K tokens/次工具描述+参数+返回值
月均成本估算(单个Agent)$15-150按$15/1M tokens计

OpenClaw Agent Token消耗特征

  • 对话累积:每轮对话都保留历史, Token消耗随轮数增长
  • 工具成本:每次工具调用都有额外Token消耗(描述+参数+返回值)
  • 记忆管理:需要策略性压缩历史对话(如只保留关键信息)
  • 优化方向:会话级KV Cache、工具调用批量化、记忆压缩算法

7.4 三种场景Token消耗对比

对比维度Vibe Coding普通推理OpenClaw Agent
单次Token消耗50K-500K1K-20K5K-50K
上下文特征超长(代码库)中等(提示词)累积(对话历史)
交互模式高频迭代单次请求多轮对话
Token增长曲线指数级线性累积型
月均成本$50-200$5-30$15-150
核心优化点代码上下文精简模型路由记忆管理+KV Cache

7.5 Token优化建议

针对不同场景的Token消耗特征,建议采取以下优化策略:

优化策略适用场景预期节省实现方式
KV Cache复用全部场景50-80%服务端缓存历史上下文的KV
上下文压缩Vibe Coding30-50%只加载相关代码文件
模型路由普通推理60-80%简单任务用小模型
记忆压缩OpenClaw Agent40-60%压缩历史对话为摘要
工具调用批量化OpenClaw Agent20-40%合并多次工具调用
提示词精简全部场景10-30%移除冗余指令

八、总结与建议

6.1 核心结论

1. 会话时长翻倍:Agent最长单轮时长从25分钟增长到45分钟,基础设施需要支持小时级稳定运行。

2. 上下文爆炸:200K tokens成为标配,99.5%带宽浪费在重复传输,KV Cache复用是刚需。

3. 有状态架构:从无状态HTTP到有状态WebSocket,负载均衡需要会话感知。

4. 安全下沉:80%操作有保护措施,安全边界从网关下沉到每次工具调用。

5. 多模型分层:不同复杂度任务用不同尺寸模型,模型路由层成为标配。

6.2 对从业者的建议

对云服务商:建设Agent-Native基础设施,支持有状态会话、长上下文缓存、快速资源回收。

对企业IT:评估现有AI基础设施对Agent场景的支持能力,优先升级会话管理、安全审计、可观测性。

对开发者:采用Agent Infra平台(如千帆、百炼)而非从零搭建,专注业务逻辑而非基础设施。

对安全团队:建立Agent行为审计体系,实施零信任架构,监控异常决策。

参考文献