第十七章:推理技术
本章深入探讨了智能体的先进推理方法,重点介绍多步逻辑推理和问题解决技术。这些技术超越了简单的顺序操作,使智能体的内部推理过程更加明确。这使得智能体能够分解问题、考虑中间步骤,并得出更加稳健和准确的结论。在这些先进方法中,一个核心原则是在推理过程中分配更多的计算资源。这意味着给予智能体或底层 LLM 更多的处理时间或步骤来处理查询并生成响应。智能体可以进行迭代优化、探索多种解决方案路径或利用外部工具,而不是进行快速的单次处理。这种在推理过程中延长的处理时间通常能显著提高准确性、连贯性和稳健性,尤其对于需要深入分析和思考的复杂问题。
实际应用包括:
●复杂问答: 促进多跳查询的解决,这类查询需要整合来自不同来源的数据并执行逻辑推理,可能涉及检查多条推理路径,并得益于更长的推理时间来综合信息。
●数学问题解决: 将数学问题分解为更小、可解决的组成部分,展示逐步解决过程,并使用代码执行进行精确计算,其中长时间的推理能够支持更复杂的代码生成和验证。
●代码调试与生成: 支持智能体对其生成或修正代码的推理依据进行解释,顺序识别潜在问题,并根据测试结果迭代优化代码(自我修正),利用扩展的推理时间进行彻底的调试周期。
●战略规划: 通过推理各种选项、结果和先决条件来协助制定全面计划,并根据实时反馈(ReAct)调整计划,其中深入的思考可以导致更有效和可靠的计划。
●医疗诊断: 帮助智能体系统评估症状、检查结果和患者病史以做出诊断,在每个阶段阐述其推理过程,并可能利用外部工具进行数据检索(ReAct)。增加推理时间可以实现更全面的鉴别诊断。
●法律分析: 支持对法律文件和判例的分析,以制定论点或提供指导,详细说明所采取的逻辑步骤,并通过自纠正(self-correction)确保逻辑一致性。增加推理时间可以进行更深入的法律研究和论点构建。
推理技巧
首先,我们深入探究旨在提升 AI 模型问题解决能力的核心推理技巧。
思维链 (CoT) 提示通过模仿逐步思考的过程(参见图 1),显著增强了大型语言模型(LLM)的复杂推理能力。CoT 提示并非直接给出答案,而是引导模型生成一系列中间推理步骤。这种清晰的拆解使 LLM 能够将复杂问题分解为更小、更易处理的子问题,从而攻克难题。这项技术显著提升了模型在需要多步推理任务上的表现,例如算术、常识推理和符号操作等。
CoT 的一个主要优势在于它能够将困难的单步问题转化为一系列简单步骤,进而提高 LLM 推理过程的透明度。这种方法不仅提高了准确性,还为模型的决策提供了有价值的洞察,有助于调试和理解。CoT 可以通过多种策略实现,包括提供展示逐步推理的少样本示例,或者直接指示模型“逐步思考”。其有效性源于它能够引导模型的内部处理流程朝着更审慎、更逻辑化的方向发展。因此,思维链已成为赋能当代 LLM 高级推理能力的关键基石。
这种增强的透明度,以及将复杂问题拆解为可管理子问题的做法,对于自主智能体(Autonomous Agents)尤为重要,因为它使智能体能够在复杂环境中执行更可靠、更可审计的行动。

图 1:思维链提示以及智能体生成的详细、逐步响应。
让我们看一个例子。它首先包含一组指令,告诉 AI 如何思考,定义其角色以及一个明确的五步流程。这是启动结构化思考的提示。
随后,该示例展示了 CoT 过程的实际应用。标记为"Agent's Thought Process"的部分是模型执行指定步骤时的内心独白,这就是字面意义上的"思维链"。最后,"Agent's Final Answer"是经过仔细、逐步推理过程后生成的精炼且全面的输出。
思维树(ToT) 是一种建立在思维链(Chain-of-Thought, CoT)基础上的推理技巧。它允许大型语言模型通过分支到不同的中间步骤,探索多条推理路径,从而形成一个树状结构(参见图 2)。这种方法通过支持回溯、自我修正和探索替代解决方案,来支持复杂的解题过程。维护一棵可能性之树,使得模型能够在最终确定答案之前评估各种推理轨迹。这种迭代过程增强了模型处理需要战略规划和决策制定的挑战性任务的能力。
自我修正(Self-correction),也称为自我精炼(self-refinement),是智能体推理过程的关键方面,尤其是在思维链提示中。它涉及智能体对其生成的内容和中间思维过程进行内部评估。这种批判性审查使智能体能够识别其理解或解决方案中的歧义、信息空白或不准确之处。这种审查和精炼的迭代循环允许智能体调整其方法、提高响应质量,并确保在交付最终输出前的准确性和彻底性。这种内部批判增强了智能体生成可靠和高质量结果的能力,正如专门的第 4 章示例所示。
这个示例展示了一个系统化的自我修正过程,这对于精炼 AI 生成的内容至关重要。它涉及一个起草、对照原始要求进行审查,以及实施具体改进的迭代循环。该示例首先概述了 AI 作为“自我修正智能体”(Self-Correction Agent)的功能,并定义了一个明确的五步分析和修订工作流。随后,呈现了一份质量欠佳的社交媒体帖子“初始草稿”(Initial Draft)。“自我修正智能体的思维过程”(Self-Correction Agent's Thought Process)构成了演示的核心。在这个环节,智能体根据指令批判性地评估草稿,指出了诸如参与度低和行动号召模糊等弱点。然后,它提出了具体的改进建议,包括使用更具影响力的动词和表情符号。整个过程最终以“最终修订内容”(Final Revised Content)收尾,这是一个整合了自我识别调整后的、更精炼且显著改善的版本。
从根本上说,这项技巧将质量控制措施直接整合到智能体(Agent)的内容生成过程中,从而产生更精炼、更精确、更优质的结果,能更有效地满足复杂的用户需求。
程序辅助语言模型(Program-Aided Language Models, PALMs) 将大语言模型(LLM)与符号推理能力相结合。这种集成允许 LLM 在问题解决过程中生成并执行代码,例如 Python。PALMs 将复杂的计算、逻辑操作和数据处理工作转移到一个确定的编程环境中。这种方法利用了传统编程的优势,来处理 LLM 在准确性或一致性方面可能表现出局限性的任务。当面临符号挑战时,模型可以生成代码、执行代码,并将结果转换为自然语言。这种混合方法将 LLM 的理解和生成能力与精确计算相结合,使模型能够解决更广泛的复杂问题,并有可能提高可靠性和准确性。这对智能体来说至关重要,因为它允许智能体通过利用精确计算以及自身的理解和生成能力,执行更准确、更可靠的行动。一个例子是 Google ADK 中使用外部工具来生成代码。
可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR): 尽管有效,但许多 LLM 使用的标准思维链(Chain-of-Thought, CoT)提示是一种相对基础的推理方法。它会生成一条单一、预定的思维路线,而无法适应问题的复杂性。为了克服这些限制,一类新型的专业** 「推理模型」已被开发出来。这些模型的运作方式有所不同,它们会在提供答案之前投入可变时长的「思考」时间。这个「思考」过程会产生更广泛、更具动态性的思维链**,长度可达数千个 Token。这种扩展的推理能够支持更复杂的行为,例如自我修正和回溯,模型会针对难度更高的问题投入更多精力。赋能这些模型的关键创新是一种名为可验证奖励的强化学习(RLVR)的训练策略。通过在已知正确答案的问题上(例如数学或代码)对模型进行训练,模型通过试错学习生成有效的长篇推理。这使得模型无需直接的人类监督即可演化其问题解决能力。最终,这些推理模型不仅会产生答案,还会生成一条「推理轨迹」,展示出规划、监控和评估等高级技能。这种增强的推理和策略制定能力,是自主 AI 智能体发展的基石,使它们能够以最少的人工干预来拆解和解决复杂的任务。
ReAct (推理与行动,参见图 3,其中 KB 代表知识库)是一种将思维链(CoT)提示与智能体通过工具与外部环境进行交互能力相结合的范式。与生成最终答案的生成模型不同,ReAct 智能体会推理要采取哪些行动。这个推理阶段涉及一个类似于 CoT 的内部规划过程,智能体在其中确定其后续步骤、考虑可用的工具并预测结果。随后,智能体通过执行工具或函数调用(例如查询数据库、执行计算或与 API 交互)来采取行动。
图 3:推理与行动
ReAct 以交错的方式运作:智能体执行一个动作,观察结果,并将此观察结果纳入随后的推理中。这种「思考、行动、观察、思考……」的迭代循环允许智能体动态地调整其计划、修正错误,并实现需要与环境进行多次交互的目标。由于智能体对实时反馈作出响应,因此与线性 CoT 相比,这提供了一种更稳健和灵活的问题解决方法。通过将语言模型的理解和生成能力与使用工具的能力相结合,ReAct 使智能体能够执行既需要推理又需要实际执行的复杂任务。这种方法对智能体至关重要,因为它使智能体不仅能够推理,还能实际执行步骤并与动态环境进行交互。
CoD (辩论链,Chain of Debates)是微软提出的一种正式 AI 框架,其中多个、不同的模型协同合作并进行辩论来解决问题,超越了单个 AI 的「思维链」。该系统运作起来就像一个 AI 委员会会议,不同的模型提出初始想法、批判彼此的推理,并交换反驳意见。其主要目标是通过利用集体智慧,提高最终答案的准确性、减少偏见并改善整体质量。该方法充当 AI 版的同行评审,创建了一个透明且值得信赖的推理过程记录。最终,它代表了一种转变,即从一个单独的智能体提供答案,转向一个智能体协作团队共同寻找一个更稳健、经过验证的解决方案。
GoD(辩论图,Graph of Debates)是一种先进的具智能体特性(Agentic)框架,它将讨论重新构想为一个动态、非线性的网络,而不是一个简单的链条。在这个模型中,论点是单独的节点,通过表示「支持」或「反驳」等关系的边连接起来,反映了真实辩论的多线程特性。这种结构允许新的探究路线动态地分支出来、独立演化,甚至随时间推移而合并。结论的得出并非在序列的末尾,而是通过识别整个图中最稳健和得到充分支持的论点集群。在这种背景下,「得到充分支持」指的是坚定确立且可验证的知识。这可以包括被认为是基础事实(ground truth)的信息,即其本质上正确并被广泛接受为事实。此外,它还包括通过搜索溯源(search grounding)获得的事实证据,即信息已根据外部来源和真实世界数据进行了验证。最后,它也涉及多个模型在辩论中达成的共识,表明对所呈现信息的高度一致性和信心。这种综合方法确保了所讨论信息具有更稳健和可靠的基础。这种方法为复杂、协作的 AI 推理提供了一个更整体、更真实的模型。
MASS(可选进阶主题): 对多智能体系统(Multi-Agent Systems, MAS)设计的深入分析表明,其有效性关键取决于用于编程单个智能体的提示(Prompt)质量以及决定其交互的拓扑结构。设计这些系统的复杂性非常高,因为它涉及一个庞大而错综复杂的搜索空间。为了应对这一挑战,开发了一个名为** 多智能体系统搜索(MASS)**的新颖框架,用于自动化和优化 MAS 的设计。
MASS 采用一种多阶段优化策略,通过交错进行提示优化和拓扑优化,系统地导航复杂的设计空间(参见图 4)。
1. 块级提示优化(Block-Level Prompt Optimization): 该过程从对单个智能体类型或「块」的提示进行局部优化开始,以确保每个组件在集成到更大系统之前都能有效地执行其角色。这一初始步骤至关重要,因为它能确保后续的拓扑优化是建立在表现良好的智能体之上的,而不是因配置不佳的智能体而遭受复合影响。例如,在针对 HotpotQA 数据集进行优化时,「辩论者」智能体的提示被创造性地构思,指示其扮演** 「某主要出版物的专家事实核查员」。其优化后的任务是仔细审查其他智能体提出的答案,将其与提供的上下文段落进行交叉引用,并识别任何不一致或未得到支持的论断。这个在块级优化过程中发现的专业角色扮演提示**,旨在使辩论者智能体在被放入更大工作流之前,就能高效地综合信息。
2. 工作流拓扑优化(Workflow Topology Optimization): 在局部优化之后,MASS 通过从可定制的设计空间中选择和排列不同的智能体交互,来优化工作流拓扑。为了提高搜索效率,MASS 采用了一种影响加权方法。该方法通过测量每种拓扑结构相对于基线智能体的性能增益,计算其「增量影响」,并使用这些分数来指导搜索,使其倾向于更有前途的组合。例如,在针对 MBPP 编码任务进行优化时,拓扑搜索发现特定的混合工作流最为有效。发现的最佳拓扑结构并非一个简单的结构,而是迭代精炼过程与外部工具使用的组合。具体来说,它包含一个进行多轮反思的预测智能体,其代码由一个针对测试用例运行代码的执行智能体进行验证。这个被发现的工作流表明,对于编码任务,将迭代自我修正与外部验证相结合的结构优于更简单的 MAS 设计。

图 4:(作者供图):多智能体系统搜索(Multi-Agent System Search, MASS)框架是一个三阶段的优化过程,它在一个包含可优化提示(指令和演示)和可配置智能体构建模块(聚合、反思、辩论、总结和工具使用)的搜索空间中进行导航。第一阶段,块级提示优化,独立优化每个智能体模块的提示。第二阶段,工作流拓扑优化,从影响加权的设计空间中采样有效的系统配置,并整合优化后的提示。最终阶段,工作流级提示优化,在确定第二阶段的最佳工作流之后,对整个多智能体系统进行第二轮提示优化。
** 3. 工作流级提示优化(Workflow-Level Prompt Optimization): 最终阶段涉及对整个系统提示的全局优化。在识别出性能最佳的拓扑结构后,将提示作为单一、集成的实体进行微调,以确保它们适应编排,并优化智能体之间的相互依赖关系。例如,在找到 DROP 数据集的最佳拓扑结构后,最终优化阶段会精炼 「预测智能体」("Predictor" agent)的提示。最终优化后的提示高度详细**,首先向智能体提供数据集本身的摘要,指出其侧重于** 「抽取式问答」("extractive question answering")和「数值信息」("numerical information")。然后,它包含少量示例**(few-shot examples),展示正确的问答行为,并将核心指令框定为一个高风险场景:「你是一个高度专业化的 AI,任务是为一篇紧急新闻报道提取关键的数值信息。一次现场直播正依赖你的准确性和速度」。这种结合了元知识、示例和角色扮演的多方面提示,是专门针对最终工作流进行调优的,以最大限度地提高准确性。
关键发现与原则: 实验证明,经 MASS 优化的 MAS 在一系列任务中的表现显著优于现有手动设计的系统和其他自动化设计方法。根据这项研究得出的有效 MAS 的关键设计原则有三点:
- 在组合智能体之前,使用高质量的提示来优化单个智能体。
- 通过组合有影响力的拓扑结构来构建 MAS,而不是探索无约束的搜索空间。
- 通过最终的工作流级联合优化,对智能体之间的相互依赖关系进行建模和优化。
在我们讨论了关键推理技巧之后,首先让我们考察一个核心性能原则:LLM 的推理扩展定律(Scaling Inference Law for LLMs)。该定律指出,随着分配给模型的计算资源增加,模型的性能会可预测地提高。我们可以看到,在像深度研究(Deep Research)这样的复杂系统中,这个原则正在发挥作用,AI 智能体利用这些资源自主调查一个主题:将其分解为子问题,使用 Web 搜索作为工具,并综合其发现。
** 深度研究(Deep Research)。** 「深度研究」一词描述了一类具智能体特性(Agentic)的 AI 工具,它们旨在充当不知疲倦、有条不紊的研究助理。该领域的主要平台包括 Perplexity AI、Google Gemini 的研究能力以及 OpenAI ChatGPT 内部的高级功能(参见图 5)。
图 5:用于信息收集的 Google Deep Research
这些工具带来的一个根本性转变是搜索过程本身的改变。标准搜索会立即提供链接,将综合整理的工作留给你。而深度研究则采用不同的模式。在这里,你给 AI 分配一个复杂的查询任务,并授予它一个「时间预算」——通常是几分钟。作为这种耐心的回报,你将收到一份详细的报告。
在此期间,AI 以一种具智能体特性的方式为你工作。它自主执行一系列复杂且对人来说极其耗时的步骤:
初始探索: 它根据你的初始提示运行多个有针对性的搜索。
推理与精炼: 它阅读和分析第一波结果,综合其发现,并批判性地识别出空白、矛盾或需要更多细节的领域。
后续探究: 基于其内部推理,它进行新的、更细致的搜索,以填补这些空白并加深其理解。
最终综合: 经过多轮这种迭代搜索和推理后,它将所有经过验证的信息汇编成一个单一、有凝聚力且结构化的摘要。
这种系统方法确保了全面且有充分理由支持的响应,显著提高了信息收集的效率和深度,从而促进了更具智能体特性的决策制定。
这一关键原则规定了在 LLM 的运行阶段(称为推理)期间,LLM 的性能与分配给它的计算资源之间的关系。推理缩放定律不同于更熟悉的训练缩放定律,后者侧重于模型的质量如何随着模型创建过程中的数据量和计算能力的增加而提高。相反,该定律专门研究当 LLM 积极生成输出或答案时所发生的动态权衡。
该定律的一个基石在于揭示,通过在推理时增加计算投入,往往可以从小型的 LLM 中获得更优的结果。这不一定意味着使用更强大的 GPU,而是采用更复杂或资源密集型的推理策略。这种策略的一个主要例子是指示模型生成多个潜在答案——可能通过诸如多样化束搜索或自洽性方法等技术——然后采用选择机制来确定最优输出。这种迭代精炼或多候选生成过程需要更多的计算周期,但可以显著提升最终响应的质量。
该原则为 Agent 系统部署中的知情且经济合理的决策提供了一个关键框架。它挑战了“更大的模型总是能带来更好性能”的直观观念。该定律认为,在推理过程中,一个较小的模型如果获得更多的“思考预算”,有时可以超越一个依赖于更简单、计算密集度较低的生成过程的更大模型。“思考预算”在此指的是在推理过程中应用的额外计算步骤或复杂算法,它允许较小的模型在最终确定答案之前探索更广泛的可能性或应用更严格的内部检查。
因此,推理缩放定律对于构建高效且成本效益高的 Agentic 系统至关重要。它提供了一种细致平衡几个相互关联因素的方法:
●模型大小: 较小的模型在内存和存储方面本身要求较低。 ●响应延迟: 虽然增加推理时间的计算会增加延迟,但该定律有助于确定性能提升超过这种增加的阈值,或者如何策略性地应用计算以避免过度的延迟。 ●运营成本: 部署和运行更大的模型通常会因更高的功耗和基础设施需求而产生更高的持续运营成本。该定律展示了如何在不不必要地增加这些成本的情况下优化性能。
通过理解和应用推理缩放定律,开发人员和组织可以做出战略选择,从而为特定的 agentic 应用带来最佳性能,确保计算资源被分配到对 LLM 输出的质量和效用影响最大的地方。这使得 AI 部署能够采取更细致、经济上可行的方法,超越简单的“越大越好”的范式。
Google 开源的 DeepSearch 代码,可通过 gemini-fullstack-langgraph-quickstart 仓库(图 6)获取。该仓库为开发者提供了一个模板,用于使用 Gemini 2.5 和 LangGraph 编排框架构建全栈 AI 智能体。这种开源栈便于进行智能体架构的实验,并可与 Gemma 等本地 LLM 集成。它利用 Docker 和模块化项目脚手架实现快速原型开发。需要注意的是,本次发布是一个结构良好的演示,并非用于生产环境的后端。
本项目提供了一个全栈应用程序,包含 React 前端和 LangGraph 后端,专为高级研究和对话式 AI 设计。LangGraph 智能体使用 Google Gemini 模型动态生成搜索查询,并通过 Google Search API 集成网络研究。该系统采用反思性推理来识别知识差距,迭代地优化搜索,并合成带引用的答案。前端和后端支持热重载。项目的结构包括独立的 frontend/ 和 backend/ 目录。设置要求包括 Node.js、npm、Python 3.8+ 和 Google Gemini API 密钥。在配置好后端 .env 文件中的 API 密钥后,可以安装后端(使用 pip install .)和前端(npm install)的依赖项。开发服务器可以与 make dev 同时运行,或单独运行。后端智能体定义在 backend/src/agent/graph.py 中,负责生成初始搜索查询,进行网络研究,执行知识差距分析,迭代优化查询,并使用 Gemini 模型合成带引用的答案。生产部署涉及后端服务器交付静态前端构建,并需要 Redis 进行实时输出流式传输,以及 Postgres 数据库用于管理数据。可以使用 docker-compose up 构建和运行 Docker 镜像,该镜像也需要 LangSmith API 密钥用于 docker-compose.yml 示例。该应用程序使用 Vite、Tailwind CSS、Shadcn UI、LangGraph 和 Google Gemini 的 React。该项目根据 Apache License 2.0 授权。
简单来说,智能体的思考过程是一种结构化的方法,它结合了推理和行动来解决问题。这种方法允许智能体明确地规划其步骤、监控其进展,并与外部工具交互以收集信息。
其核心在于,智能体的“思考”是由一个强大的大语言模型(LLM)驱动的。这个 LLM 会生成一系列指导智能体后续行动的思考。整个过程通常遵循一个“思考-行动-观察”的循环:
- 思考 (Thought): 智能体首先生成一个文本思考,该思考会分解问题、制定计划或分析当前情况。这种内部的独白使得智能体的推理过程透明且可控。
- 行动 (Action): 基于思考,智能体从一组预定义的、离散的选项中选择一个行动。例如,在问答场景中,行动空间可能包括在线搜索、从特定网页检索信息,或提供最终答案。
- 观察 (Observation): 智能体随后根据所采取的行动接收来自环境的反馈。这可能是网络搜索的结果,或是网页的内容。
这个循环会不断重复,每一次观察都会为下一次思考提供信息,直到智能体确定它已达成最终解决方案并执行“完成”行动。
这种方法的有效性依赖于底层 LLM 的高级推理和规划能力。为了指导智能体,ReAct 框架通常采用少样本学习(few-shot learning),即向 LLM 提供类似人类解决问题轨迹的示例。这些示例演示了如何有效地结合思考和行动来解决相似的任务。
智能体的思考频率可以根据任务进行调整。对于像事实核查这样的知识密集型推理任务,思考通常会与每个行动交织进行,以确保信息收集和推理的逻辑流程。相比之下,对于需要许多行动的决策任务,例如在模拟环境中导航,思考可能会更谨慎地使用,让智能体自行决定何时需要思考。
问题所在 (What): 复杂问题的解决常常需要不止一个直接答案,这对 AI 构成了重大挑战。核心问题是如何让 AI 智能体能够处理需要逻辑推理、分解和战略规划的多步骤任务。没有结构化的方法,智能体可能无法处理其中的复杂性,导致不准确或不完整的结论。这些高级推理方法旨在使智能体的内部“思考”过程明确化,从而使其能够系统地应对挑战。
解决之道 (Why): 标准化的解决方案是一系列推理技术,为智能体的解决问题过程提供了一个结构化框架。像思维链(Chain-of-Thought, CoT)和思维树(Tree-of-Thought, ToT)这样的方法可以指导 LLM 分解问题并探索多种解决方案路径。自我纠正(Self-Correction)则允许对答案进行迭代改进,确保更高的准确性。ReAct 等智能体框架将推理与行动相结合,使智能体能够与外部工具和环境交互以收集信息并调整其计划。这种显性推理、探索、改进和工具使用的结合,创造了更强大、更透明、能力更强的 AI 系统。
经验法则 (Rule of thumb): 当一个问题过于复杂,无法一次性给出答案,需要分解、多步逻辑、与外部数据源或工具交互,或是需要战略规划和适应时,请使用这些推理技术。它们非常适用于那些展示“工作过程”或思考过程与最终答案同等重要的任务。
可视化总结
图 7:推理设计模式
● 通过明确其推理过程,智能体能够制定透明的、多步骤的计划,这是实现自主行动和赢得用户信任的基础能力。
● ReAct 框架为智能体提供了其核心的操作循环,使其能够超越单纯的推理,并与外部工具进行交互,从而在环境中动态地行动和适应。
● 推理缩放定律(Scaling Inference Law)表明,智能体的性能不仅与其底层模型的大小有关,还与其分配的“思考时间”有关,这使得智能体能够执行更审慎、更高质量的自主行动。
● 思维链(Chain-of-Thought, CoT)作为智能体的内部独白,通过将复杂的目标分解为一系列可管理的操作,提供了一种结构化的方法来制定计划。
● 思维树(Tree-of-Thought)和自我修正(Self-Correction)赋予智能体关键的审议能力,使其能够在执行前评估多种策略、从错误中回溯并改进自己的计划。
● 像辩论链(Chain of Debates, CoD)这样的协作框架标志着从单个智能体向多智能体系统的转变,在这种系统中,智能体团队可以协同推理,以解决更复杂的问题并减少个体偏见。
● 像深度研究(Deep Research)这样的应用展示了这些技术如何最终转化为智能体,使其能够完全代表用户自主执行复杂的、耗时长的任务,例如深度调查。
● 为了构建有效的智能体团队,MASS 等框架自动化了单个智能体指令的下发方式及其交互的优化过程,确保整个多智能体系统能够以最佳状态运行。
● 通过整合这些推理技术,我们构建的智能体不仅是自动化的,更是真正自主的,能够被信任在无需直接监督的情况下进行规划、行动和解决复杂问题。
现代人工智能正从被动的工具演变为能够通过结构化推理来达成复杂目标的自主智能体。
这种具智能体特性的行为始于内部独白,由思维链(CoT)等技术驱动,使智能体在行动前能够制定连贯的计划。
真正的自主性需要审议,智能体通过自我修正和思维树(ToT)来实现这一点,使其能够评估多种策略并独立改进自身工作。
向完全具智能体特性的系统迈进的关键一步来自于 ReAct 框架,它使智能体能够通过使用外部工具,超越单纯的思考而开始行动。
这确立了思考、行动和观察的核心智能体循环,使智能体能够根据环境反馈动态地调整其策略。
智能体深度审议的能力由推理缩放定律(Scaling Inference Law)驱动,更多的计算“思考时间”直接转化为更鲁棒的自主行动。
下一个前沿是多智能体系统,其中辩论链(CoD)等框架创建了协作性的智能体社会,它们能够协同推理以达成共同目标。
这并非纸上谈兵;像深度研究(Deep Research)这样的具智能体应用已经展示了自主智能体如何能代表用户执行复杂的、多步骤的调查。
总体的目标是构建可靠且透明的自主智能体,这些智能体能够被信任独立地管理和解决复杂的难题。
最终,通过将明确的推理与行动能力相结合,这些方法论正在完成人工智能向真正具智能体特性的问题解决者的转变。
相关研究包括:
Wei 等人(2022)的《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》
Yao 等人(2023)的《Tree of Thoughts: Deliberate Problem Solving with Large Language Models》
Gao 等人(2023)的《Program-Aided Language Models》
Yao 等人(2023)的《ReAct: Synergizing Reasoning and Acting in Language Models》
《Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for LLM Problem-Solving》, 2024
《Multi-Agent Design: Optimizing Agents with Better Prompts and Topologies》, https://arxiv.org/abs/2502.02533