告别Chunking：DeepResearch如何用Agent把RAG从“检索增强生成”升级为“检索增强推理”

【摘要】Agent范式正从根本上重塑信息处理流程。DeepResearch通过将检索内化为推理环节的主动行为，实现了从“检索增强生成”到“检索增强推理”的跃迁，使得静态的Chunking不再是必要前提。

引言

在过去几年中，检索增强生成（RAG）已成为大型语言模型（LLM）解决知识局限性与事实幻觉问题的标准架构。其核心思想简单直接，即通过外部知识库为模型的生成过程提供精准、实时的信息源。然而，几乎所有传统的RAG实践都建立在一个共同的工程基石之上，那就是Chunking，即文档预切分。这一操作看似是技术实现的细节，实则反映了当前主流范式中模型与信息关系的本质，一种被动的、割裂的关系。

近期，以通义DeepResearch为代表的Agentic RAG架构，正在引发一场深刻的范式革命。它最引人注目的特征之一，便是无需传统意义上的Chunking。这并非简单的工程优化，而是AI从“信息执行者”向“自主研究员”角色转变的标志。本文将深入剖析DeepResearch的技术内核，阐明其为何能够摆脱对静态Chunking的依赖，并探讨这一变革对未来AI系统架构的深远影响。我们将从范式差异、技术实现、到产业落地，系统性地拆解这场由Agent驱动的“推理革命”。

❖ 一、范式重塑：从“检索增强生成”到“检索增强推理”

要理解DeepResearch为何无需Chunking，首先必须厘清其与传统RAG在核心范式上的根本分野。二者的差异，集中体现在“检索”这一行为在整个系统中所扮演的角色。

1.1 传统RAG：检索作为“外置模块”的被动流程

传统RAG架构遵循一个清晰的、线性的工作流。这个流程的核心是将检索视为一个独立于模型核心推理能力之外的前置数据准备步骤。

其典型工作流程可以概括为以下几个阶段。

离线处理阶段（Indexing）。系统首先对所有原始文档进行预处理，最关键的一步便是Chunking。文档被切割成固定或可变长度的文本块。随后，这些文本块经过Embedding模型向量化，存入专门的向量数据库中，建立索引以备查询。
在线查询阶段（Retrieval & Generation）。当用户提出问题时，系统将问题同样进行向量化，然后在向量数据库中执行相似度搜索，召回与问题最相关的Top-K个文本块（Chunks）。这些召回的文本块被直接拼接到模型的上下文（Context）中，与原始问题一起，作为最终的Prompt提交给LLM。最后，LLM基于增强后的上下文生成答案。

我们可以用一个流程图来清晰地展示这个过程。

在这个范式下，检索是一个“黑盒化”的外部工具。模型本身并不参与“如何检索”或“检索什么”的决策过程。它只是一个被动的接收者，被动地处理由检索模块“喂”给它的信息。这种模式的本质是“检索增强生成”（Retrieval-Augmented Generation），重点在于为“生成”环节提供更丰富的原材料。

1.2 DeepResearch：检索作为“推理环节”的主动行为

DeepResearch所代表的Agentic RAG范式，则彻底颠覆了上述流程。它将检索从一个外部前置模块，内化为模型自主推理过程中的一个可选行动（Action）。

其工作流程是动态的、循环的，更接近人类研究员解决复杂问题的思维模式。

任务理解与规划。面对一个复杂问题，Agent首先进行思考和规划。它会分解任务，判断解决这个问题需要哪些信息，并形成一个初步的行动计划。例如，它可能会决定“首先，我需要搜索关于A的定义”。
主动执行行动。根据规划，Agent主动调用工具箱中的工具，其中“搜索”只是众多工具之一。它会自主构建搜索查询语句，并执行搜索。
观察与信息整合。Agent获取搜索工具返回的结果（例如，网页摘要或文档内容）。关键在于，它并不会将原始结果直接塞入上下文，而是会对其进行在线的、动态的筛选、摘要和整合，提取出与当前推理步骤最相关的“证据”或“知识点”。
迭代推理与更新。Agent将整合后的新信息融入其“工作记忆”或“思维链”中，然后基于更新后的信息状态，进行下一步的思考和规划。这个过程会持续循环，直到最终问题得以解决。

这个动态循环的过程可以用ReAct（Reasoning and Acting）框架来描述。

在这个范式下，检索不再是被动的。它是由模型的内在推理需求驱动的。模型掌握了信息获取的主动权，能够自主决策何时检索、检索什么、以及如何处理检索到的信息。这种模式的本质是“检索增强推理”（Retrieval-Augmented Reasoning），重点在于通过检索服务和增强“推理”这个核心过程。

1.3 核心范式对比

为了更直观地理解二者的区别，我们可以通过一个表格进行全方位对比。

对比维度	传统RAG (检索增强生成)	DeepResearch (检索增强推理)
核心逻辑	先检索，后生成 (线性流程)	推理驱动，按需检索 (循环闭环)
检索时机	离线预处理建立索引，在线查询时一次性召回	在线推理过程中动态、多次触发
信息组织单位	静态的文档块 (Chunk)	动态的阶段性结论或核心报告
模型角色	被动的信息接收者与加工者	主动的决策者与行动者
流程灵活性	流程固定，难以应对多步、复杂任务	流程动态，可自适应调整策略以解决复杂问题
对Chunking的依赖	强依赖，是整个架构的基石	无依赖，信息处理以内在线动态摘要为主
解决的问题	知识的即时性与准确性	复杂问题的规划、探索与深度分析能力

这个表格清晰地揭示了，DeepResearch的“无需Chunking”并非一个孤立的技术点，而是其核心范式转变所带来的必然结果。当模型自身具备了规划、行动与信息处理能力后，那种为了弥补模型能力不足而设计的、僵化的外部工程方案，自然就失去了存在的必要性。

❖ 二、 Chunking的黄昏：一种工程妥协的必然终结

在传统RAG架构中，Chunking几乎是不可或缺的一环。理解其存在的历史必然性与内在局限性，是理解Agent范式为何能超越它的关键。

2.1 Chunking在传统RAG中的必要性

Chunking的出现，本质上是为了解决一系列工程与模型能力的约束，是一种务实的“妥协”方案。

上下文长度限制。早期的LLM上下文窗口非常有限（如2K、4K）。即使是现在的长上下文模型，其有效处理信息的长度也存在上限。直接将整篇长文档喂给模型，不仅成本高昂，效果也难以保证。Chunking通过将文档切分为小块，确保了每次送入模型的上下文都在可控范围内。
向量检索的粒度问题。向量检索的核心是计算查询与文档块之间的语义相似度。如果文档块过大，其包含的主题可能过于宽泛，导致向量表示的语义被“平均化”，降低了检索的精确度。例如，一个包含十个不同主题的万字长文，其整体向量很难与一个针对单一具体问题的查询精准匹配。将文档切分为更聚焦的Chunk，可以提升检索召回的信噪比。
速度与成本考量。对海量文档进行实时处理和Embedding的成本极高。离线切分并建立索引，可以将计算压力前置，保证在线查询时能够实现毫秒级的快速响应。这对于要求低延迟的应用场景至关重要。

因此，Chunking是围绕“如何让不具备自主信息处理能力的模型，更高效地利用外部知识”这一核心问题所设计的工程解法。

2.2 Chunking的固有技术瓶颈

尽管Chunking解决了有无问题，但它也引入了一系列难以根除的技术瓶颈，这些瓶颈直接限制了RAG系统性能的天花板。

语义断裂 (Semantic Fragmentation)。机械的切分方式，无论是按固定长度、还是按段落或句子，都极易破坏原文的语义完整性。一个完整的逻辑链、一个复杂的定义、或是一个跨段落的因果关系，可能被无情地切分到两个或多个不同的Chunk中。当模型只看到其中一个碎片时，便无法理解完整的上下文，导致生成答案的片面或错误。
召回偏差 (Retrieval Bias)。检索的成败完全依赖于“问题”与“Chunk”在向量空间中的距离。这种方式天然偏好那些与问题表述直接相关的文本块，而对于那些需要间接推理、或包含背景知识的上下文，则可能无法有效召回。这导致系统在处理需要多跳推理的问题时表现不佳。
上下文噪声 (Context Noise)。为了尽可能覆盖相关信息，RAG系统通常会召回多个（Top-K）Chunks。这些Chunks中，可能只有一个是核心相关的，其余的则是噪音。大量的无关信息被塞入上下文，不仅会干扰模型的注意力，还可能导致模型在生成答案时“跑偏”，引用了错误的片段。
跨段推理困难 (Difficulty in Cross-Chunk Reasoning)。即便系统幸运地召回了所有相关的Chunks，模型也面临着巨大的挑战。它需要在一堆无序、可能存在重叠或矛盾的文本片段中，自行梳理逻辑关系、解决冲突、并构建一个连贯的答案。这对模型的推理能力提出了极高的要求，失败的概率很大。

这些问题的根源在于，Chunking是一种静态的、上下文无关的预处理。它试图用一种“一刀切”的方式，去应对未来所有可能的用户问题。这种“先存储再匹配”的模式，注定了它无法灵活地适应具体问题的动态需求。

2.3 从静态预处理到动态“记忆管理”

DeepResearch的范式彻底改变了信息处理的方式。它并没有完全抛弃“切分”或“压缩”信息的思想，而是将其从离线的、静态的预处理，转变为在线的、动态的“记忆管理”。

不预切分全量文档。DeepResearch的知识源可以是整个互联网、整个文档库。它不需要提前将所有内容都处理成标准化的Chunks。
按需提炼关键证据。当Agent通过搜索获取到一篇相关文档后，它会根据当前正在解决的子问题，主动地对这篇文档进行阅读、理解和摘要。它会提取出最关键的论点、数据或证据，而不是把整篇文档或某个固定的块塞进工作记忆。
信息组织单位的升级。在传统RAG中，信息的基本单位是“文档块”（Chunk）。而在DeepResearch中，信息的基本单位是“阶段性研究结论”或“核心报告”。这是经过Agent主动加工、提炼和结构化的知识，其信噪比和可用性远高于原始的文本片段。

本质上，DeepResearch用模型的自主认知能力，替代了过去依赖工程师设计的、僵化的Chunking规则。信息处理从一种被动的工程手段，升维为一种主动的智能行为。这正是它能够告别传统Chunking的根本原因。

❖ 三、 DeepResearch核心架构：驱动智能跃迁的三大支柱

DeepResearch的强大能力并非单一技术的突破，而是源于一套精心设计的、端到端的Agent构建方法论。这套方法论主要包含三大支柱，数据飞轮、双推理模式、以及端到端强化学习。

3.1 数据飞轮：为Agent注入“研究员的灵魂”

要让模型学会像人类研究员一样思考和行动，就必须为其提供相应的训练数据。然而，高质量的Agent决策轨迹数据极其稀缺且标注成本高昂。DeepResearch通过一个名为AgentFounder的自动化数据生成系统，构建了一个无需人工干预的“数据飞轮”，成功解决了这一瓶颈。

3.1.1 第一阶段：增量预训练（CPT）打造Agent基座

传统的大模型擅长语言理解和生成，但普遍缺乏Agent的核心能力，例如工具调用、多步规划等。CPT阶段的目标，就是为基础大模型注入Agent的“灵魂”。

AgentFounder系统能够将海量的、非结构化的数据（如网页、知识图谱）自动重组为符合Agent思维逻辑的“决策链式样本”。这些样本不再是简单的“问题-答案”对，而是包含了完整的推理过程，例如。

单步规划样本。教会模型如何将一个目标分解为第一个具体行动。例如，对于“分析AI发展史”，样本会展示出“第一步，应先梳理出关键的时间节点和事件”。
递进式推理样本。教会模型如何基于上一步的结果进行下一步的思考。例如，“在查到达特茅斯会议后，下一步应检索深度学习的复兴”。
多步决策样本。教会模型如何在多个信息源或行动选项中进行权衡。例如，“对比学术论文和新闻报道，前者在技术细节上更权威，应优先参考”。

通过在预训练阶段吸收海量此类样本，模型从一开始就学习到了结构化的思考方式，为其后续的Agent能力发展奠定了坚实的基础。

3.1.2 第二阶段：自动化后训练突破能力上限

在模型具备基础的Agent思维后，后训练阶段的目标是让它变得“更专业”，能够处理更复杂、更真实的研究任务。

这个阶段的数据生成流程高度自动化。

复杂Web QA数据生成。利用WebSailor和WebShaper等工具，基于知识图谱自动生成需要通过网页浏览和信息整合才能回答的复杂问题。
迭代式复杂性升级。采用“Agent生成、Agent深化”的模式。一个Agent生成一个基础问题，另一个Agent利用检索、计算等工具对问题进行扩展和深化，使其变得更具挑战性。每一轮的输出都成为下一轮的输入，通过多轮“自我博弈”，最终生成接近博士级研究难度的任务样本。
多源轨迹数据融合。融合了包括ReAct和后面将要介绍的IterResearch在内的多种推理模式的轨迹数据，让模型“见多识广”，能够灵活运用不同的策略应对不同的任务。

这套数据飞轮机制，用机器自动化的方式解决了Agent训练数据的核心痛点，实现了高质量训练样本的规模化、低成本生产。

3.1.3 Step-level Scaling：让模型学会“择优”

一个更巧妙的设计是“Step-level Scaling”机制。传统的训练数据通常只包含一条成功的轨迹。而DeepResearch在数据生成时，会在推理的每一个关键步骤，探索多条并行的候选路径。

例如，在规划第一步时，可能会生成三个不同的思路。模型会被要求评估每条路径的优劣，并选择最优的一条继续走下去。同时，这条“正确决策”本身也会被标注下来，成为训练数据的一部分。

这种多路径探索与择优的训练方式，让模型不仅仅是模仿一条固定的成功路径，更是学会了在岔路口进行自主判断和选择的能力。这极大地提升了模型在实际应用中的推理稳定性和鲁棒性，有效降低了“一条路走到黑”的风险。

3.2 双推理模式：适配多样化任务的动态引擎

拥有了强大的Agent基座能力后，还需要高效的推理框架来释放这些能力。DeepResearch设计了两种推理模式，以动态适应不同复杂度的任务。这套框架也是其实现“动态推理-检索合一”的技术支撑。

3.2.1 基础模式：ReAct，通用任务的高效解

对于大部分常规及中等复杂度的任务，DeepResearch采用经典的ReAct（Reason and Act）模式。这是一个“思考-行动-观察”的循环。

思考 (Reason)。模型分析当前状态和目标，生成下一步的行动计划。
行动 (Act)。模型执行计划，例如调用搜索工具、计算器或查询API。
观察 (Observe)。模型接收行动返回的结果，并将其作为下一步思考的输入。

这个循环不断迭代，直到任务完成。在ReAct模式下，模型已经能够精准判断“何时需要信息”以及“需要什么信息”，从而主动发起检索。这背后验证了数据飞轮训练的有效性。

3.2.2 进阶模式：IterResearch，复杂研究的核心解法

然而，在处理需要长链条、多步骤的深度研究任务时，单纯的ReAct模式会面临两大致命挑战。

认知瓶颈与上下文膨胀。随着思考步骤的增加，历史记录会越来越长，上下文变得异常臃肿。大量的中间过程和冗余信息会累积成噪声，干扰模型的后续判断，拖慢推理速度。
推理跑偏 (Derailment)。在长链条推理中，微小的偏差可能会被逐级放大，导致模型最终偏离核心目标，陷入无效的探索。

为了解决这些问题，DeepResearch独创了IterResearch（Iterative Research）模式。该模式将一个庞大的研究任务，拆解为多个结构化的“研究回合”（Research Rounds）。每个回合都遵循一个“总结-重写-压缩”的精炼过程。

第一步：思考与行动。在一个研究回合内，Agent执行一次或多次ReAct循环，聚焦于一个具体的子目标，例如“检索并总结欧盟2035年禁售燃油车的具体政策细节”。
第二步：综合与重构。回合结束时，Agent不会保留所有琐碎的思考和行动历史。相反，它会对本回合的发现进行综合、提炼，并生成一份结构化的“核心报告”或“阶段性结论”。这份报告只包含对后续研究有价值的关键信息，如核心事实、关键数据、已验证的假设、以及新的待解决问题。
第三步：清洁工作空间。在进入下一个研究回合时，Agent会清空上一回合的详细工作历史，只将这份精炼的“核心报告”作为输入。这相当于一个研究员定期整理自己的笔记和草稿，只保留最重要的结论，从而保持思维的清晰和专注。

这种机制，使得模型的“工作记忆”始终保持高信噪比。它让长链条推理变得可持续、可扩展，确保了推理过程的连贯性和一致性。检索到的信息，经过这个流程的筛选和摘要，被高效地融入到核心推理主线中，完全无需依赖预先分割的静态Chunks。

3.3 端到端强化学习：从“模仿专家”到“自主优化”

监督微调（SFT）能让模型学会模仿训练数据中的“专家行为”，但无法超越这些范例。为了让Agent具备在真实、复杂环境中自主优化决策的能力，DeepResearch引入了**端到端的On-Policy强化学习（RL）作为训练流程的最后一环。

3.3.1 On-Policy RL的核心设计

DeepResearch的RL流程旨在提升最终的任务成功率和决策质量，而不仅仅是模仿。为此，团队进行了两项关键优化。

留一法优势估计 (Leave-One-Out Advantage Estimation)。在计算奖励信号时，传统方法可能会因为批次中某个“幸运”或“不幸”的样本而产生较大方差，导致学习信号不稳定。DeepResearch采用“留一法”，在计算某个样本的优势时，会排除该样本自身对批次平均奖励的贡献。这有效降低了数据方差，使得模型的梯度更新更稳定，避免了“学偏”。
选择性轨迹过滤。在训练中，失败的、格式错误的或过长的轨迹，如果作为负样本参与训练，有时反而会导致模型性能下降，产生梯度震荡。因此，团队选择性地丢弃这些低质量轨迹，只保留那些对学习有明确正向或负向指导意义的样本，确保模型“学到点子上”，避免“越学越差”。

3.3.2 闭环训练系统与基础设施

高效的RL训练离不开强大的基础设施支持。

仿真训练环境。为了降低成本和不稳定性，RL训练主要在离线仿真环境中进行。该环境使用离线维基百科和自定义工具API构建，让Agent可以低成本、高效率地“刷副本”，快速迭代。
稳定的工具调用沙盒。为真实的工具调用（如网页搜索）提供了缓存和重试机制。这避免了因网络波动或单次API失败导致整个训练流程中断，保证了训练的稳定性。
自动化数据回流。RL过程中产生的高质量轨迹，会自动回流到数据飞轮的数据池中。这些新数据将用于后续的SFT和RL训练，形成一个“自我强化、持续优化”的闭环。

通过“CPT → SFT → RL”的完整流程，DeepResearch的Agent不仅学会了“如何做”，更通过与环境的交互学会了“如何做得更好”，其自主规划与自我纠错能力得到了本质性的提升。

❖ 四、产业落地与未来展望：分工重写而非简单取代

理论的先进性最终需要通过实践来检验。DeepResearch的Agent架构已经在多个实际业务场景中证明了其价值。

4.1 典型落地案例

高德地图AI原生出行Agent。这可能是Agent技术在C端大规模应用的一个标杆。该Agent能够结合实时路况、天气、用户偏好等多源动态信息，进行复杂的路线规划。它还能在规划过程中自主检索停车场、充电站等信息，整个过程无需人工干预，展现了Agent在动态决策和信息整合方面的巨大潜力。
通义法睿法律AI。在专业的法律领域，该Agent能够自主检索海量法律法规和判例，为复杂的法律问题提供合规建议和分析。其案例引用准确率显著领先行业，证明了Agent在处理专业、长链条研究任务上的可靠性。

4.2 未来趋势：Agent、RAG与长上下文的融合

那么，Agent架构会完全取代传统RAG吗？答案是否定的。未来更可能是一种深度融合与分工重写的局面。

传统RAG的价值。对于企业私域知识库、需要强确定性、低延迟的简单问答场景，传统RAG凭借其高效的索引和检索能力，依然是性价比极高的解决方案。
Agent DeepResearch的优势。对于开放域探索、需要多来源交叉验证、涉及复杂策略分析和长链条研究的任务，Agent架构的自主规划和深度推理能力是不可替代的。
长上下文模型的角色。长上下文模型则提供了强大的“工作记忆”基础，能够容纳Agent在推理过程中产生的复杂思维链和中间结论。

一个更可行的未来架构可能是三者的协同。

在这个架构中，Agent扮演着“总指挥”的角色，负责任务的分解、规划和工具的调度。传统RAG被“降维”成一个高效的“事实查询工具”，在需要时被Agent调用。而长上下文或IterResearch中的“核心报告”机制，则充当了Agent的“动态工作记忆”。Chunking不会完全消失，但它会从一个静态的、系统级的前置步骤，演变为Agent在推理过程中按需使用的一种动态摘要或记忆管理技术。

结论

DeepResearch之所以能够告别传统的Chunking，其根本原因在于一场深刻的范式变革。它成功地将AI的角色从一个被动的“信息加工者”提升为一个主动的“问题解决者”。通过将检索内化为推理过程中的一个自主行动，它用模型的内在智能替代了外在的工程规则。

这场变革的核心驱动力，是一套完整的Agent构建体系，包括解决数据瓶颈的数据飞 runaway、适配不同任务复杂度的双推理模式、以及实现能力自我超越的端到端强化学习。这套方法论证明了，构建强大的Agent并非遥不可及，而是一条清晰、可落地的技术路线。

Chunking的“消失”，并非因为它本身是一个错误的技术，而是因为它所服务的那个“模型能力不足”的时代正在过去。随着Agent技术的成熟，我们正在进入一个AI能够自主规划、自主学习、自主解决复杂问题的新纪元。这不仅是对RAG的降维打击，更是对整个AI应用开发范式的深刻重塑。

📢💻 【省心锐评】

DeepResearch的核心是让模型从“被动喂料”转向“主动觅食”。当AI学会自己找书、看书、做笔记时，自然就不再需要我们提前把书撕成一页页的卡片了。这是智能的跃迁，而非简单的技术优化。