Anthropic《Measuring AI Agent Autonomy in Practice》分析

芒果虾 2026年3月17日 30分钟

Anthropic研究方法论 Claude Code

998,481

工具调用样本数

500,000

Claude Code会话样本

99.0%

风险评估准确率

97.5%

停止原因分类准确率

一、研究方法论详解

Anthropic在《Measuring AI Agent Autonomy in Practice》附录中详细披露了其研究方法论。这份29页的附录文档揭示了如何对近百万次Agent交互进行系统性分析，为理解Agent行为提供了严谨的框架。

研究团队在2026年1月19日至2月2日期间（UTC时区），从公共API中随机抽取了998,481次工具调用，同时从Claude Code中抽取了各50万次的中断、用户提问和会话数据。采样排除了零日保留策略客户以及不允许聚合分析的使用者。

研究使用claude-sonnet-4-5-20250929模型（温度0.2，最大思考长度1024 tokens）对所有样本进行复合分类。分类维度极其丰富，涵盖15个核心维度：

维度类别	具体维度	说明
行动分析	Action, Goal, Goal Complexity	理解Agent在做什么
环境分析	Environment, Environment Type, Environmental Impact	Agent操作的系统类型
自主性分析	Human in Loop, Autonomy (1-10)	人类监督程度
风险分析	Reversibility, Risk (1-10), Safeguards	行动的潜在影响
架构分析	Agentic Architecture	单Agent vs 多Agent

当Claude判断"无人类参与"时，100%正确；当判断"有人类参与"时，仅46%正确。这种"过度归因人类参与"的偏差意味着报告中的人类参与率（73%）可能是上限估计。

Figure A1: 中位数、90%分位和99%分位单轮时长（2025.10-2026.01）

关键发现：99%分位时长从约10分钟增长到约18分钟，表明最长任务的持续时间在显著增长。增长的平滑性（跨越多个模型版本）表明这不是模型能力跳跃的结果，而是用户信任积累和任务复杂度提升的综合效应。

Figure A2: 99.99%分位单轮时长（极端长任务）

关键发现：99.99%分位时长从25分钟增长到45分钟以上，代表最极端的自主运行场景——Claude连续工作近1小时无需人类干预。

在复杂任务中，Claude主动暂停请求澄清的频率是用户中断的2倍以上。这意味着Agent对实时性要求更高——它需要快速获得人类反馈才能继续执行。