简单来说,AI 智能体 是一个能够感知环境并采取行动以实现特定目标的系统。它从标准大语言模型演进而来,被赋予了规划、使用工具以及与周围环境交互的能力。可以把智能体 AI 想象成一个能在工作中不断学习的智能助手。它遵循一个简单的五步循环来完成任务(见图 1)。
获取任务: 你给它一个目标,比如「帮我安排日程」。
分析环境: 收集所有必要信息——阅读邮件、查看日历、访问联系人——以了解当前状况。
思考对策: 它通过考量达成目标的最佳方法来制定一个行动计划。
采取行动: 通过发送邀请、安排会议、更新日历来执行计划。
学习并改进: 它观察成功的产出并相应地调整自身。例如,如果一个会议被重新安排,系统会从这一事件中学习,以提升其未来的表现。

图 1:AI 智能体如同一位智能助手,通过经验持续学习。它通过一个简单的五步循环来完成任务。
智能体的普及速度惊人。根据最近的研究,大多数大型 IT 公司正在积极使用这些智能体,其中五分之一的公司是在过去一年内才开始使用的。金融市场也注意到了这一点。到 2024 年底,AI 智能体初创公司已筹集了超过 20 亿美元,市场估值达到 52 亿美元。预计到 2034 年,其市场价值将爆炸式增长至近 2000 亿美元。简而言之,所有迹象都表明 AI 智能体将在我们未来的经济中扮演极为重要的角色。
仅仅两年时间,AI 的范式就发生了巨大转变,从简单的自动化演进为复杂的自主系统(见图 2)。最初,工作流依赖于基本的提示和触发器来通过大语言模型处理数据。随后,检索增强生成(RAG)的出现提升了系统的可靠性,因为它将模型建立在事实信息之上。接着,我们看到了能够使用各种工具的独立智能体的发展。如今,我们正在进入 AI 智能体的时代,在这个时代里,一个由专业化智能体组成的团队协同工作以实现复杂目标,这标志着AI协作能力的一次重大飞跃。

图 2:从 LLM 到 RAG,再到智能体 RAG,最终走向 AI 智能体的演进。
本书旨在讨论专业化智能体如何协同工作以实现复杂目标的设计模式,你将在每一章中看到一种协作与交互的范式。
在此之前,让我们先来看几个贯穿智能体复杂度范围的例子(见图 3)。
0 级:核心推理引擎
虽然大语言模型本身不是智能体,但它可以作为基础智能体系统的推理核心。在一个「0 级」配置中,大语言模型在没有工具、记忆或环境交互的情况下运行,仅仅基于其预训练的知识进行响应。它的优势在于利用其海量的训练数据来解释已有的概念,代价是完全缺乏对当前事件的感知。例如,如果关于“2025年奥斯卡最佳影片奖”得主的信息超出了它的预训练知识范围,它将无法给出答案。
1 级:连接外部的问题解决者
在这个级别,大语言模型通过连接并使用外部工具,摇身成为功能性智能体。它解决问题的能力不再局限于其预训练的知识。相反,它能够执行一系列动作,从互联网(通过搜索)或数据库(通过检索增强生成,即 RAG)等来源收集和处理信息。更多详细信息,请参阅第 14 章。
例如,为了寻找新的电视节目,智能体识别出需要最新信息,于是使用搜索工具来查找,然后综合处理结果。至关重要的一点是,它还可以使用专业工具以获得更高精度,例如调用金融 API 来获取苹果公司的实时股价。这种跨多个步骤与外部世界交互的能力,正是 1 级智能体的核心。
2 级:战略性问题解决者
在这个级别,智能体的能力显著扩展,涵盖战略规划、主动协助和自我提升,而提示工程和上下文工程是其核心赋能技能。
首先,智能体超越了单一工具的使用,通过战略性问题解决来处理复杂、多部分的问题。在执行一系列动作时,它会主动进行上下文工程(Context Engineering):即为每一步战略性地选择、打包和管理最相关信息的过程。例如,要在两个地点之间找一家咖啡店,它首先会使用地图工具。然后,它会对输出结果进行工程化处理,筛选出一个简短、集中的上下文——也许只是一串街道名称列表——再输入给本地搜索工具,以避免认知过载,确保第二步既高效又准确。要从 AI 获得最高精度,就必须给它一个简短、专注且有力的上下文。上下文工程正是实现这一目标的学科,它通过战略性地从所有可用来源中选择、打包和管理最关键的信息来做到这一点。它有效地管理模型的有限注意力以防止过载,确保在任何给定任务上都能实现高质量、高效率的表现。更多详细信息,请参阅附录A。
这个级别带来主动且持续的运行方式。一个与你的邮箱关联的旅行助手就展示了这一点:它会从一封冗长的航班确认邮件中进行上下文工程,只选择关键细节(航班号、日期、地点),然后打包这些信息用于后续调用你的日历和天气 API。
在软件工程等专业领域,智能体通过应用这门学科来管理整个工作流。当分配给它一个错误报告时,它会阅读报告并访问代码库,然后战略性地将这些海量信息源工程化处理成一个强有力、高度集中的上下文,使其能够高效地编写、测试并提交正确的代码补丁。
最后,智能体通过优化自身的上下文工程流程来实现自我提升。当它就“某个提示本可以如何改进”而征求反馈时,它实际上是在学习如何更好地筛选其初始输入。这使其能够自动改进为未来任务打包信息的方式,从而创建一个强大的自动化反馈循环,随着时间的推移不断提高其准确性和效率。更多详细信息,请参阅第 17 章。

图 3:展示不同复杂度智能体的实例。
3 级:协作型多智能体系统的兴起
在 3 级,我们看到了 AI 发展的一次重大范式转变:不再追求单一、全能的超级智能体,而是转向发展复杂的、协作式的多智能体系统。本质上,这种方法认识到,复杂的挑战通常不是由一个通才,而是由一个协同工作的专家团队来解决的。这个模型直接映射了人类组织的结构,其中不同部门被赋予特定角色,并协作处理多方面的目标。这种系统的集体力量在于劳动分工以及通过协调努力产生的协同效应。更多详细信息,请参阅第 7 章。
为了将这个概念具体化,可以想象一下发布一款新产品的复杂工作流。并非由一个智能体尝试处理所有方面,而是一个「项目经理」智能体可以作为中心协调者。这个经理会通过将任务委派给其他专业化智能体来统筹整个过程:一个「市场研究」智能体负责收集消费者数据,一个「产品设计」智能体负责开发概念,以及一个「市场营销」智能体负责制作宣传材料。它们成功的关键在于彼此之间无缝的沟通和信息共享,确保所有个体努力都统一指向集体目标。
虽然这种基于团队的自主自动化愿景已在开发中,但认识到当前的障碍也很重要。这类多智能体系统的有效性目前受限于它们所使用模型的推理能力。此外,它们真正相互学习并作为一个有凝聚力的整体来改进的能力仍处于早期阶段。克服这些技术瓶颈是关键的一步,而一旦做到这一点,将释放这一级别的深远潜力:实现从头到尾自动化整个业务工作流的能力。
智能体的未来:五大假设
AI 智能体开发正在软件自动化、科学研究和客户服务等领域以前所未有的速度推进。虽然当前的系统令人印象深刻,但它们仅仅是开始。下一波创新浪潮可能会聚焦于让智能体更可靠、更具协作性,并更深度融入我们的生活。以下是关于未来的五个主要假说(见图 4)。
假设 1:通用智能体的崛起
第一个假设是,AI 智能体将从狭隘的专家演变为真正的通用型选手,能够高可靠性地管理复杂、模糊和长期的目标。例如,你可以给智能体一个简单的提示,如「为我们公司 30 名员工筹划下个季度在里斯本的异地团建」。随后,这个智能体将管理整个项目长达数周,处理从预算审批、航班谈判到场地选择,再到根据员工反馈创建详细行程的所有事宜,并同时提供定期更新。实现这种级别的自主性将需要在 AI 推理、记忆与近乎完美可靠性方面取得根本性突破。一种替代性但并非相互排斥的方法是小型语言模型(SLM)的兴起。这种「乐高式」的概念涉及用小型的、专业化的专家智能体来组合成系统,而不是扩展单一的巨型模型。这种方法有望使系统更便宜、调试更快、部署更容易。最终,大型通用模型的发展和小型专业模型的组合都是未来可行的路径,它们甚至可能相得益彰。
假设 2:深度个性化与主动发现目标
第二个假设认为智能体将成为深度个性化且主动的合作伙伴。我们正在见证类新型智能体的诞生:主动合作伙伴。通过学习你独特的模式与目标,这些系统开始从仅仅遵循命令,转向预测你的需求。当 AI 系统超越简单地响应聊天或指令时,它们便作为智能体在运作。它们代表用户发起并执行任务,在过程中积极协作。这超越了简单的任务执行,进入主动目标发现的领域。
例如,如果你正在探索可持续能源,智能体可能会识别你的潜在目标,并主动支持它,比如推荐相关课程或总结研究报告。虽然这些系统仍在发展中,但它们的轨迹很清楚。它们将变得越来越主动,并在高度确信该行动会有帮助时,学会代表你采取行动。最终,智能体将成为不可或缺的盟友,帮助你发现并实现那些你尚未完全清晰表达的抱负。


图 4: 关于智能体未来的五个假设
假设 3:具身化与物理世界交互
这个假说预见智能体将挣脱纯粹的数字束缚,在物理世界中运作。通过将 AI 智能体与机器人技术相结合,我们将看到具身智能体(Embodied Agents)的兴起。你或许不再是仅仅预订一个水电工,而是直接让你的家庭智能体修理一个漏水的水龙头。智能体将使用其视觉传感器来感知问题,访问一个管道知识库来制定计划,然后精确地控制其机械臂来执行修复。这将是里程碑式的一步,弥合了数字智能与物理行动之间的鸿沟,并将彻底改变从制造业、物流到老年护理和家庭维护的方方面面。
假设 4:智能体驱动的经济
第四个假设是,高度自主的智能体将成为经济中的积极参与者,创造新的市场和商业模式。我们可能会看到智能体作为独立的经济实体,其任务是最大化一个特定结果,例如利润。企业家可以启动一个智能体来运营整个电子商务业务。该智能体将通过分析社交媒体来识别热门产品,生成营销文案和视觉材料,通过与其他自动化系统交互来管理供应链物流,并根据实时需求动态调整定价。这一转变将创造一个全新的、超高效率的「智能体经济」,其运行速度和规模是人类无法直接管理的。
假设 5:目标驱动的、可演化的多智能体系统
该假说断言,将会出现一种并非基于显式编程,而是基于一个声明性目标来运作的智能系统。用户只需陈述期望的结果,系统便能自主地找出如何实现它。这标志着向可演化多智能体系统的根本性转变,这种系统能够在个体和集体层面实现真正的自我提升。
这个系统将是一个动态实体,而非单个智能体。它将有能力分析自身表现并修改其多智能体工作团队的拓扑结构,根据需要创建、复制或移除智能体,以组成最适合当前任务的团队。这种演化发生在多个层面:
架构层面的修改: 在最深层次,单个智能体可以重写自身的源代码并重构其内部结构以提高效率,正如最初的假说所设想的那样。
指令层面的修改: 在更高层次,系统持续进行自动化的提示工程和上下文工程。它不断优化给予每个智能体的指令和信息,确保它们在没有任何人工干预的情况下以最佳指导进行运作。
例如,企业家只需声明一个意图:「启动一个成功的手工咖啡电商业务」。系统无需进一步编程即刻行动:它可能先生成「市场研究」与「品牌」两个智能体;随后基于初步结论,移除品牌智能体,并衍生出三个更细分的角色:「Logo 设计」「网店平台」「供应链」。系统会持续调校它们的内部提示以优化表现。如果网店智能体成为瓶颈,系统可能会将其复制成三个并行的智能体来处理网站的不同部分,从而动态地重构自身结构,以更好地实现声明的目标。
总结
本质上,AI 智能体代表了从传统模型的一次重大飞跃,它作为一个自主系统,能够感知、规划和行动以达成特定目标。这项技术正从使用单一工具的智能体,演进为处理多方面目标的复杂、协作式多智能体系统。未来的假说预测了通用型、个性化、乃至物理具身化的智能体的出现,它们将成为经济活动的积极参与者。这一持续的发展标志着一次重大的范式转变,即向能够自动化整个工作流并从根本上重新定义我们与技术关系的、自我提升的、目标驱动的系统迈进。
参考文献
Cloudera, Inc.(2025 年 4 月),96% 的企业正在增加对 AI 智能体的使用。
自主生成式 AI 智能体:
Market.us. 全球智能体 AI 市场规模、趋势和 2025-2034 年预测。