2025年12月的AWS re:Invent大会上,Anthropic应用AI负责人Cal Rueb带来了一场震动行业的演讲。作为Claude Code的核心构建者,Cal不仅主导了Agent核心概念的定义,更亲手打造了Context Engineering方法论与MCP开放标准,他的分享绝非纸上谈兵,而是基于数千个企业级Agent落地案例的实战总结。在Agent技术爆发的2025年之后,2026年这个赛道将走向何方?Anthropic用数据、案例与明确的路线图,给出了属于引领者的答案。

  Anthropic重磅披露 2026 Agent终局,上下文工程主宰AI自主决策时代一、模型进化:从49%到80%的质变,重新定义成本逻辑

  2025年Agent领域的最大惊喜,来自模型能力的跨越式提升。在软件工程领域最权威的SWE-bench Verified评测中,Anthropic的模型表现堪称惊艳:2024年底Claude Sonnet 3.5 V2的得分仅为49%,而到2025年底,Claude Opus 4.5的得分已飙升至80%。这意味着模型在处理真实GitHub bug修复任务时,成功率几乎翻倍,能够独立完成大部分中低难度的代码修复工作。

  但比分数更值得关注的,是效率革命带来的成本逻辑重构。Opus 4.5不仅准确率更高,还能以更少的token完成相同任务。这打破了行业长期以来的"单价思维",过去企业选择模型时只看每百万token的价格,但现在情况完全不同。假设解决一个复杂编程任务,旧模型需要消耗10万token,而Opus 4.5仅需5万token,即便后者单价更高,最终的任务总成本反而更低。Anthropic明确判断,2026年所有企业团队都必须转向"任务成本思维",评估模型价值的核心将是"完成任务的总代价"而非单纯的token单价。

  安全性的提升同样关键。Prompt Injection一直是Agent落地的最大安全隐患,攻击者通过嵌入恶意指令试图让模型偏离预设目标,这在企业级应用中可能造成数据泄露或系统故障。Opus 4.5在这一领域的防御能力实现了显著突破,虽然尚未完全根治,但已能抵御90%以上的常见攻击,为Agent进入高敏感场景扫清了障碍。

二、2026三大核心路线:长时运行、GUI操作与垂直深耕

  模型的进化只是基础,Anthropic在2026年的布局聚焦于三个更具颠覆性的方向,旨在让Agent真正融入生产生活的核心场景。

  第一个方向是Long-running Agents,目标是将Agent的持续工作能力从当前的数小时提升至数天甚至数周。目前Claude Code已能在特定环境下连续工作4-6小时,处理代码调试、项目构建等连贯任务,但要实现天级或周级运行,必须解决Context管理的核心难题。想象一下,一个Agent能够接手一个完整的软件项目开发,从需求分析、架构设计到编码测试,持续工作一周后交付成品,这需要模型在有限的Context窗口中保持长期连贯性,不遗忘关键信息,不偏离任务目标。Anthropic正在通过优化记忆机制与Context压缩算法,推动这一目标落地。

  第二个方向是Computer Use,让Agent具备像人类一样操作GUI的能力。在现实工作中,大量业务数据和操作逻辑被锁在没有API的桌面软件中,比如传统ERP系统、专业设计工具等,这些场景是传统Agent难以触及的。Anthropic的解决方案是赋予模型"动手"能力:通过识别截图理解界面布局,模拟鼠标点击、键盘输入完成操作。目前这项技术还存在效率问题,Cal在演讲中调侃"看着模型点击鼠标会让人沮丧,因为人类操作速度要快得多",但技术迭代速度惊人,预计2026年将实现效率翻倍,能够流畅处理大部分办公软件的日常操作。

  第三个方向是垂直领域深耕,在编程之外拓展Agent的核心能力边界。Anthropic选择了三个极具潜力的赛道: cybersecurity、金融服务和办公自动化。在网络安全领域,Agent将扮演"白帽黑客"的角色,通过代码审查、漏洞检测、安全分析等工作,帮助企业抵御网络攻击,这也契合了Anthropic的核心使命——确保AI技术的安全应用。金融服务领域则聚焦量化分析与财务建模,利用模型对数字的敏感嗅觉和逻辑推理能力,提供更精准的投资决策支持。办公自动化则瞄准了职场人的痛点,Cal透露自己本次演讲的PPT仍是纯手工制作,而2026年的目标是让Agent能够根据简单指令"生成符合风格的完整PPT",Excel数据处理、文档撰写等任务也将实现全自动化。

三、Agent的本质:从预定义流程到自主决策循环

  要理解Agent的进化方向,首先需要明确一个核心问题:什么是真正的Agent?Anthropic给出了清晰的定义,也揭示了它与传统LLM应用的本质区别。

  早期的LLM应用大多属于Workflow模式,即开发者预先定义好多个prompt的串联路径,中间夹杂固定的逻辑判断。这种模式的优势是可控性强、便于调试,比如简单的客户咨询机器人,就能通过预设的问答路径解决常见问题。但随着应用场景复杂化,Workflow的弊端暴露无遗:一是边界情况爆炸,一个需要处理50种场景的客服系统,可能需要编写上百个prompt,维护成本极高;二是错误恢复能力差,一旦中间某一步出现预期外的输入,错误就会一路传递,最终导致输出失效。

  而Agent的核心逻辑是"模型+工具+循环",即给模型配备一组工具,设定一个开放式目标,让模型在运行过程中自主决定调用什么工具、按什么顺序调用、何时停止任务。这种模式完美解决了Workflow的两大痛点:不需要穷举所有边界情况,模型能根据实际场景自主判断;具备天然的错误恢复能力,当工具返回错误结果时,模型会自动尝试其他方案。两者的关键区别在于"谁来做决策",Workflow是开发者预先决定所有流程,而Agent是模型在运行时动态决策。

  这个定义看似简单,却重塑了AI应用的开发逻辑。开发者不再需要预判所有可能的场景,而是专注于提供高质量的工具和清晰的目标,把决策权力交给模型。这种转变,正是Agent能够突破传统LLM应用局限的核心原因。

四、Context Engineering:Agent时代的核心方法论

  2024年的热词是Prompt Engineering,而到了2025年,这个概念已经进化为Context Engineering。这一转变背后,是Agent从"单次调用"到"循环运行"的场景升级,也标志着Agent开发进入了更系统、更复杂的阶段。

  Prompt Engineering关注的是"如何写好一个单次调用的prompt",而Agent是循环调用的过程,一个任务可能涉及几十上百次工具调用,需要管理的维度大幅增加:包括Agent的基础指令(System Prompt)、工具的定义与调用方式、跨Context窗口的记忆保持、Context快满时的压缩策略等。Context Engineering的核心,就是管理Agent整个生命周期中的信息流,确保模型在任何时候都能获得"刚刚好"的信息支持。

  Cal分享了Context Engineering的关键实践原则,其中最核心的是找到指令的"Goldilocks Zone"(刚刚好区间)。很多开发者会陷入一个误区,把详细的SOP直接塞进prompt,比如某客户曾将32页的客服操作手册全部写入prompt,里面布满了if-else逻辑,结果模型被海量信息淹没,完全无法正常工作。而另一个极端是指令过于模糊,三两句简单描述让模型无从下手。所谓"刚刚好",就是"最小但足够"的指令量,既能让模型明确目标和边界,又不限制其自主决策能力。

  如何找到这个区间?Cal给出了两个实用建议:一是把prompt交给不了解业务的朋友阅读,如果对方看不懂,模型也大概率无法理解;二是遵循"宁可模糊,不要具体"的原则,从简单指令开始,观察模型在哪些场景下出错,再针对性地补充细节。同时他也提醒,当你的prompt出现这些特征时,就说明过于具体了:看起来像伪代码、包含大量if-else逻辑、以冗长的编号列表呈现。

  除了指令设计,Context管理的另一个关键是平衡"信息充足"与"Context容量"。模型的Context窗口是有限的,Claude的Context窗口虽已达到200K tokens,但对于长时运行的Agent来说仍会很快耗尽。这就需要开发者在提供必要信息和控制Context体积之间找到平衡,后续的工具设计和长任务优化策略,本质上都是Context Engineering的延伸。

五、工具设计:Agent能力的最大杠杆点

  在"模型+工具+循环"的Agent架构中,工具设计是最值得投入时间的环节,也是提升Agent能力的最大杠杆点。Anthropic通过大量实践,总结出了工具设计的四大核心原则,每一条都经过了真实场景的验证。

  第一条原则:Tool Description就是Prompt。很多开发者会忽视工具描述的重要性,但实际上,工具定义会直接被纳入System Prompt,其质量直接影响模型对工具的使用效果。这意味着所有Prompt Engineering的技巧都适用于工具描述:语言要清晰具体、逻辑要连贯、最好包含使用示例。一个模糊的工具描述会让模型无从判断该何时调用,而一个精准的描述能让工具的价值最大化。

  第二条原则:明确区分相似工具的数据范围。Anthropic在开发Claude AI时曾踩过一个典型的坑:两个团队分别开发了Web Search和Google Drive Search工具,单独测试时效果都很好,但合并后模型频繁混淆——用Web Search搜索Google Drive里的文件,用Google Drive Search搜索网络内容。问题的根源在于工具描述中没有明确区分数据范围,模型无法判断不同工具的适用场景。因此,当存在多个功能相似的工具时,一定要在描述中清晰界定各自的数据来源和适用场景,避免模型混淆。

  第三条原则:通过Tool Use Examples传递使用模式。JSON Schema只能定义工具的输入输出结构,但无法传递使用场景和判断逻辑。比如一个创建工单的工具,Schema仅说明priority字段可选low/medium/high/critical,但模型无法知道"生产环境500错误"应选critical,"功能建议"可留空priority。这时就需要提供Tool Use Examples,通过具体案例展示不同场景下的工具使用方式。Anthropic的内部测试显示,添加示例后,工具使用准确率从72%提升到90%,效果显著。

  第四条原则:Progressive Disclosure(按需发现)。传统做法是将所有工具定义预先加载到Context中,这会导致一个严重问题:工具越多,Context占用量越大,甚至出现过工具定义占用134K tokens的情况,模型还未开始工作,Context就已濒临上限。Progressive Disclosure的核心思路是"只加载需要的工具",Claude Code的实现方式很有参考价值:启动时不读取所有文件内容,只让模型知道"当前目录下有哪些文件",需要查看具体内容时再调用read file工具;唯一例外是claude.md文件,里面存储着用户给Agent的持久化指令,因始终有用而直接加载。Anthropic还开发了Tool Search Tool,让Agent能在运行时自主搜索和发现所需工具。这一策略的效果极为显著:Context占用量从77K tokens降至8.7K,节省85%,同时准确率从49%提升到74%。

六、长任务优化:突破Context Window的三大策略

  对于Long-running Agents来说,Context Window不足是最大的技术瓶颈。即便Claude的Context窗口已达200K tokens,在处理持续数小时以上的任务时,仍会面临Context耗尽的问题。Anthropic通过实践总结出三种有效的优化策略,共同突破这一限制。

  第一种策略是Compaction(压缩)。这是最直接的解决方案:当Context即将满额时,让模型自动总结之前的对话内容和操作记录,用简洁的摘要替换原始信息,从而释放Context空间。看似简单的操作,实则需要大量优化,Cal透露Claude Code的compaction prompt已迭代超过100次。压缩的核心挑战是在减少token消耗的同时,保留关键信息,避免模型因摘要丢失重要内容而偏离任务目标。虽然"被压缩的体验不太好",但作为工程层面的解决方案,仍是当前长任务处理的基础手段。

  第二种策略是Memory(自建笔记)。这是更优雅的解决方案:让Agent在运行过程中自主记录重要信息,写入外部文件,当Context重置后,通过读取笔记恢复记忆。Anthropic的"Claude Plays Pokémon"项目是这一策略的生动案例:在Twitch直播中,Claude需要玩《精灵宝可梦红》,这个游戏需要跨越数千步保持连贯性,包括记住目标、追踪进度、记录不同攻击对敌人的效果等。Claude没有使用压缩策略,而是通过小型文件系统编写markdown笔记,每次Context重置后读取笔记继续游戏,完美保持了任务的连贯性。目前Anthropic正在将这一能力训练进模型,让Agent天生具备"做笔记"的习惯,无需额外提示。

  第三种策略是Sub-agent(子代理)。核心思路是"分而治之":主Agent负责整体规划和任务分配,子Agent专注于执行具体的细分任务,每个子Agent拥有独立的Context空间,完成任务后仅向主Agent返回精炼结果。Claude Code最初引入子代理是为了实现并行处理,但实践发现模型尚不擅长将任务分解为可并行的原子单元,并行效果未达预期。但在探索性任务中,子代理展现出巨大价值:比如修复一个复杂bug时,主Agent会启动子代理专门读取代码库、梳理结构,子代理完成探索后返回一份精炼的代码结构报告,主Agent则基于这份报告制定修复方案。这种模式让主Agent的Context始终保持干净,无需被大量探索性信息占用,大幅提升了任务处理效率。

七、Agent终局:给Agent一台电脑,让它完成所有工作

  回到文章开头的问题:2026年Agent的终局是什么?Anthropic的答案清晰而坚定:2025年是Agent爆发年,2026年则是"给Agent一台电脑"的时代。而实现这一终局的核心,是"代码即能力"的底层逻辑。

  一个反直觉的事实是,Claude处理PPT、Excel等办公软件的方式,并非调用专门的create_slide或edit_cell API,而是通过写代码实现。比如用Python库操作PowerPoint生成幻灯片,用JavaScript库处理Excel数据,代码执行环境成为Agent与所有软件的通用桥梁。这一设计的深层逻辑在于:任何计算机能完成的任务,都可以转化为代码,而会写代码的Agent,理论上具备完成所有计算机任务的潜力。

  这就是Programmatic Tool Calling的核心思想:不是让Agent逐个调用工具,而是让它通过编写代码来编排工具,中间数据在代码环境中直接处理,仅将最终结果反馈给用户。这种模式的优势在于通用性——无需为每个软件开发专属工具,只要有对应的代码库,Agent就能操作该软件;同时具备极强的灵活性,能够处理复杂的跨软件协作任务,比如从Excel读取数据、用Python分析、生成可视化图表、嵌入PPT并撰写分析报告,整个流程由一段代码串联完成。

  基于这一架构,Anthropic推出了Claude Agent SDK,将Claude Code的核心能力抽象为通用开发框架。这套SDK包含Agent循环机制、System Prompt与工具设计模板、权限管理系统、Memory管理模块等核心组件,开发者无需从零构建基础架构,只需专注于自身领域的问题和特定工具开发。

  更重要的是,Claude Agent SDK的应用场景远不止编程。几乎所有人的工作都离不开电脑,而SDK的核心能力,文件系统访问、代码执行、安全沙箱——对所有领域都适用。法律从业者可以用它读取合同、搜索案例、生成法律文书;金融分析师能用它处理Excel数据、进行量化分析、生成投资报告;市场人员能用它制作PPT、撰写文案、管理社交媒体账号。给Agent一台电脑,它就能完成任何人用电脑做的事,这正是2026年Agent的终局形态。

八、选择Agent框架的核心原则:理解底层,拒绝黑盒

  随着Agent技术的爆发,市面上涌现出大量Agent框架,很多团队会选择直接使用框架加速开发。但Cal给出了一个重要提醒:无论选择哪种框架,都必须理解其底层逻辑。很多团队在使用框架时会陷入"卡壳困境",遇到问题不知道根源在哪,无法针对性优化,这是因为框架在抽象复杂性的同时,也隐藏了关键细节。

  一个好的Agent框架应具备四个核心特征:可控性、不过度 Opinionated、可定制性、透明性。可控性意味着开发者能调整模型参数、Context管理策略等关键配置;不过度Opinionated表示框架不强制要求使用特定的开发模式或工具集,给开发者足够的灵活空间;可定制性要求框架支持自定义Prompt、添加专属工具,满足不同场景的需求;透明性则是指框架的底层运行逻辑清晰可查,开发者能知道每个步骤的执行过程。

  Cal强调,Agent领域的技术迭代速度极快,今天的最佳实践可能明天就会过时,但有一个核心原则永远不会变:Agent的能力上限等于Context的质量上限。无论使用哪种框架,Context Engineering都是核心竞争力,只有掌握了信息流的管理方法,才能真正驾驭Agent工具,应对不断变化的业务需求。

结语:Agent的进化,是效率革命的必然

  Anthropic的2025总结与2026路线图,不仅揭示了Agent技术的发展方向,更展现了AI与人类协作的未来形态。从模型能力的质变到工具设计的精细化,从Context Engineering的系统化到长任务处理的突破,Agent正在从"辅助工具"进化为"自主协作伙伴"。