智能体生产实践全景报告：深度解析Langchain年末千人调研数据

【摘要】“LangChain的年末总结来了，基于1000多位一线调研，给出Agent生产化现状与评测、观测、治理的工程重点。”

引言

《LangChain 年末总结》报告，样本来自 1000 多位一线从业者，覆盖了从探索、开发到生产部署的不同阶段。它的价值不在于概念包装，而在于把“真实在生产里被痛到的点”做了结构化汇总，让读者能用一套可对照的数据坐标，判断自己的团队处在行业曲线的哪个位置。

报告之所以有参考意义，还因为 LangChain 处在 LLM 应用工程化生态的中心位置。IBM 对 LangChain 的定义强调它作为开源编排框架，用于构建聊天机器人与虚拟代理等 LLM 应用，并能把模型与外部数据源、软件工作流进行集成，这类定位使它更容易沉淀工程侧方法论与实践样本 15。生态的活跃度也在增强，CSDN 对 Interrupt 2025 的回顾提到，LangChain 举办了面向 AI Agent 的行业盛会，吸引了来自多地的 800 多位参与者，进一步说明其社区与产业连接的密度在上升 3。

在这样的背景下，这份年末调研更像一张工程现实的“体检报告”。它把生产落地比例、典型应用场景、主要挑战、可观测性建设、评测手段与指标、模型来源与微调采用等关键问题放在同一套统计口径下，适合用来反推下一阶段的投入顺序与架构重点。

◆ 一、生产落地的速度与结构

1.1 从 2024 到 2025 的迁移

团队是否把 Agent 放进生产环境，是判断“热度”还是“能力”的分界线。第一张表给了一个很直白的答案。2025 年“已在生产环境使用”的占比继续上升，同时“积极开发准备上线”的占比下降，这种组合通常意味着一批项目完成了从试验到上线的迁移。

1.1.1 表 1 公司是否已有 Agent 在生产环境

年份（Year）	已在生产环境使用	否，但在积极开发并计划上线	否，仅在探索
2024 受访者	51.2%	38.1%	10.7%
2025 受访者	57.3%	30.4%	12.3%

从工程视角读这张表，有三个结论更关键。

第一，生产占比提升 6.1 个百分点，说明“上线”不再是少数团队的特权。第二，开发中占比下降 7.7 个百分点，这部分人群很可能有两种去向，一部分进入生产，一部分在质量、合规、成本上遇到阻力而停滞。第三，探索占比小幅上升，通常代表新进入者更多，或者组织内部开始出现第二波新团队尝试 Agent。

1.2 不同规模企业的落地差异

规模决定了约束条件。小公司更容易试错，大公司更擅长把事情做成体系。第二张表把这种差异摊开，企业规模越大，“已在生产环境使用”的比例越高，同时大企业“仅探索”的比例更低。

1.2.1 表 2 不同公司规模的生产落地情况

公司规模	已在生产环境使用	否，但正在积极开发准备上线	否，仅在探索
初创（Startup, <100）	50%	36%	14%
成长期（Scale-up, 100–500）	50%	34%	16%
中型市场（Mid-market, 500–2K）	64%	22%	14%
中大型（Upper mid-market, 2K–10K）	53%	32%	14.5%
大型企业（Enterprise, >10K+）	67%	25%	8%

这张表不适合用“谁更先进”来解释，更适合用“约束结构”来解释。

中型市场与大型企业更容易把 Agent 推进生产，背后常见原因是流程与数据更成型，场景更稳定，预算更连续，治理团队更完整。初创与成长期公司“积极开发准备上线”的占比更高，往往不是因为不会上线，而是上线之后要承担的支持成本更敏感，质量与成本一旦失控就会反噬主营业务。

这里还有一个容易被忽略的细节。中大型企业（2K–10K）生产占比 53%，比 500–2K 低，这类组织经常处在治理与创新之间的拉扯期。业务复杂度上来了，平台化能力却未必同步完成，落地速度就会变得不稳定。

1.3 工程含义

落地比例上升意味着 Agent 的技术栈在发生重心迁移。PoC 阶段的主角是提示词与模型选择，生产阶段的主角变成了质量体系、观测体系、灰度体系、权限体系、成本体系。没有这些，团队上线越多，事故与返工越多，产能会被运维与排障吞掉。

把 Agent 做成产品，不是把模型接入业务，而是把不确定性接入工程体系。 这一点决定了后文几个主题的优先级。

◆ 二、需求侧的真实主场

2.1 最常见的应用场景分布

第三张表给出 Agent 需求侧的排序。客服与研究分析位居前二，这不是偶然。它们共同的特点是信息密集、任务路径可拆、对话入口自然，工具调用价值高。

2.1.1 表 3 Agent 主要应用场景分布

应用场景（Use case）	占比（Share）
客服（Customer service）	26.5%
研究与数据分析（Research & data analysis）	24.4%
内部效率/生产力（Internal productivity）	17.7%
代码生成（Code generation）	9.8%
内容生成（Content generation）	9.0%
销售/市场自动化（Sales/marketing automation）	6.0%
其他（Other）	6.7%

从结构上看，前三项占比接近七成。它们的共同点是对业务结果的定义相对清晰，适合先做“人机协作”，再逐步把闭环交给 Agent。

客服适合走“检索增强加流程分流”的路线，先把意图识别、知识查询、工单填充自动化，再把少量简单场景闭环。研究与数据分析适合走“工具调用加数据权限”的路线，模型负责提出计划、生成查询、汇总结论，人负责确认关键假设与风险。内部生产力适合走“组织知识库加审批流程”的路线，因为数据可控，权限边界更容易建立，合规压力也更低。

2.2 工程含义

需求侧排序会直接影响技术实现的权重。

客服更敏感的是延迟、稳定性、知识正确性、合规留痕。研究与数据分析更敏感的是数据访问权限、可复现性、工具链可靠性。内部生产力更敏感的是接入成本、组织知识结构、权限继承。代码与内容生成虽然占比不小，但更像局部能力的增强，很多团队会直接用成熟工具解决，而不是投入完整的 Agent 平台化建设。

因此，Agent 工程的第一优先级通常不是更强的推理，而是更可控的工具调用与更可度量的正确性。 这会把我们自然引向第四张表的挑战排序。

◆ 三、生产化的主要阻力来自哪里

3.1 挑战项的排序

第四张表的排序很“工程化”。输出质量第一，延迟第二，安全合规第三，随后才是部署与成本。这个排序意味着大多数团队已经跨过“能调用模型”的门槛，进入“能稳定交付”的门槛。

3.1.1 表 4 构建与上线 Agent 的主要挑战

挑战项（Challenge）	占比（Share）
输出质量（Quality of outputs）	32.9%
延迟/响应时间（Latency / response time）	20.1%
安全与合规（Security and compliance）	16.0%
部署基础设施（Deployment infrastructure）	13.9%
成本管理（Cost management）	12.8%
其他（Other）	4.2%

3.2 对“输出质量”的更细拆解

“输出质量”在 Agent 场景里不是单一概念，它至少包含四类问题。

一类是事实正确性，尤其在 RAG 与工具调用中，经常出现引用错误、摘要遗漏、跨文档冲突未处理。第二类是任务完成度，Agent 可能说得很好听，但没有把动作做完，例如漏掉关键参数、工具调用未闭环、状态未更新。第三类是策略一致性，同一类问题在不同对话轮次给出不同处理方式，导致用户信任崩塌。第四类是安全质量，输出中包含越权数据、敏感信息、不可执行指令，这类质量问题会被合规直接放大成事故。

当“质量”排到第一名，工程策略就要跟着变。提示词优化只能解决一部分，剩下更依赖可观测、评测、守护策略、工具契约与回归体系。

3.3 延迟为什么能排到第二

延迟不是体验问题那么简单，它通常意味着系统成本与系统结构。

客服场景里，用户对 2 秒与 8 秒的容忍度不同，超过阈值就会转人工，转人工就会把节省成本的逻辑反转。研究分析场景里，单次任务可能更长，但链路中每次工具调用都会叠加等待，导致整体完成时间失控。工程上常见的解法是做分层模型策略，常规轮次用低成本模型，高风险轮次用高能力模型，关键节点做并行工具调用与超时降级。

因此，延迟管理是架构问题，不是模型参数问题。 这也是可观测性成为硬需求的原因。

◆ 四、可观测性与治理能力开始分层

4.1 观测能力的普及度

第五张表显示，多数团队已经能追踪单个 Agent 的步骤与工具调用。这类能力一旦建立，排障模式会从“猜提示词”转为“查链路”，从“靠经验”转为“靠证据”。

4.1.1 表 5 Agent 可观测性建设情况

选项（Option）	含义（中文）	占比（Share）
Yes, I can trace individual agent steps and tool calls	是的，可以追踪单个 Agent 的步骤与工具调用（链路级追踪）	62.4%
Yes, but only basic logs/metrics	是的，但只有基础日志/指标（基础监控）	26.4%
No	没有建立可观测性	11.2%

4.2 观测能力的工程价值

链路级追踪并不等同于把对话存起来。它通常意味着三种结构化数据被系统性采集。

第一类是推理与决策过程的结构化记录，至少包括模型版本、提示版本、路由策略、关键中间状态。第二类是工具调用记录，包括入参、出参、错误码、耗时、重试次数、幂等键。第三类是安全与权限记录，包括用户身份、权限范围、数据来源、输出过滤策略命中情况。

只有这些数据齐备，团队才有能力做三件事。第一是定位问题出在模型、提示、检索、工具还是权限。第二是把线上事故沉淀成离线用例，纳入回归。第三是把成本与性能做拆解，知道钱花在模型上还是花在工具链上。

4.3 建议的观测与回归闭环

为了把“观测”变成“治理”，一个更可复用的工程闭环是把链路追踪与评测体系联动。这里给一个常用的最小闭环结构，团队可以按规模扩展。

这张流程图的重点不在“画得完整”，而在于把几个高频问题放到同一条链路上处理。质量退化能够快速被评测发现，事故能够快速沉淀为回归用例，版本发布能够有灰度与指标护栏。团队能否把这条链路跑顺，往往决定了上线之后的迭代速度。

◆ 五、评测体系从加分项变成底座

生产化之后，团队最痛的往往不是“不会做”，而是“做了也不知道有没有变好”。输出质量排第一的背景下，评测体系自然会成为工程投入的中心。第六张与第七张表把评测的做法与指标选型拆开呈现，两张表合起来读，信息更完整。

5.1 评测方式的主流组合

离线评测与线上评测并行，是目前更常见的路径。离线适合做回归与对比，线上适合验证真实业务指标。仍有近三成团队没有评测，这往往会把质量问题拖到线上才暴露，修复成本更高。

5.1.1 表 6 Agent 评估方式分布可多选

评估方式（Evaluation method）	含义（中文）	占比（Share）
Offline evaluation on test sets	离线评估基于测试集基准集评测	52.7%
Online evaluation on production data	在线评估基于生产数据线上流量评测	38.3%
Not evaluating yet	目前还没有做评估	29.4%
Other	其他	1.7%

这类可多选题的占比相加会超过 100%，它反映的是手段覆盖率，而不是人群互斥分布。对架构师来说，更关键的是把离线与线上评测打通成闭环。

离线评测做得好的团队，会把线上真实对话与真实工具链失败案例，抽样脱敏后沉淀到回归集里。线上评测做得好的团队，会把关键指标做成发布护栏，版本灰度时先观察任务完成率、工具成功率、风险命中率，再逐步放量。

5.2 评测指标与方法的现实选择

第七张表显示，内部人工评审仍是第一选择，LLM-as-judge 紧随其后，传统 ROUGE 与 BLEU 这类指标的占比明显更低。这很符合 Agent 场景的本质。Agent 的问题往往不是“像不像标准答案”，而是“有没有把事办成，是否合规，是否可复现”。

5.2.1 表 7 Agent 评估指标与方法可多选

评估指标/方法（Metric / approach）	含义（中文）	占比（Share）
Internal human review/labelling	内部人工评审标注	59.8%
LLM-as-judge	用 LLM 充当评审模型打分裁判	53.3%
Traditional ML/DS metrics (ROUGE, BLUE, etc)	传统 ML 指标如 ROUGE BLEU 等	16.9%
Other	其他	1.3%

人工评审的优势在于可信度与业务语境理解，它的短板是吞吐与一致性。LLM-as-judge 的优势在于规模化与自动化，它的短板是需要校准，否则容易把评测变成“模型自嗨”。更稳妥的做法，是把两者做成互补关系。人工评审负责定义规则与抽样验真，LLM-as-judge 负责覆盖全量回归与快速迭代。

5.3 建一个能跑起来的评测矩阵

很多团队评测失败，不是因为缺方法，而是因为指标定义不成体系。Agent 的评测至少要覆盖三层目标，任务结果、过程可靠性、风险与成本。下面这张表不是调研数据，而是工程上更容易落地的评测矩阵，用来把第六第七张表的选择落到执行层面。

评测层级	关注点	典型指标	常用手段
结果层	是否完成任务	任务完成率关键字段正确率用户确认率	人工抽检业务规则校验 LLM-as-judge
过程层	工具链是否稳定	工具成功率重试率超时率幂等冲突率	Trace 回放断言式测试合约测试
风险成本层	是否可控可审计	越权命中率敏感输出率 p95 延迟单任务成本	策略引擎审计线上护栏成本分解

这张矩阵的核心目的是让团队在上线之前就能回答三个问题。任务是否有效，链路是否可靠，风险与成本是否可控。 任何一个问题缺答案，生产化都会变得被动。

◆ 六、多模型并行与微调选择的工程逻辑

第八与第九张表把模型使用与微调现状放在一起，能看出行业的主流路线。多数团队采用多模型并行，同时微调仍是少数派。对工程负责人来说，这不是模型能力问题，而是投入产出问题与组织能力问题。

6.1 模型来源的分布体现多供应商策略

OpenAI 的覆盖率最高，但 Google、Anthropic 与开源模型都占有相当比例。可多选意味着很多团队同时用多个来源，按任务路由与按成本路由正在成为常见做法。

6.1.1 表 8 Agent 使用的模型来源可多选

模型来源（Model provider/type）	示例（Example）	占比（Share）
OpenAI	GPT‑5、4o 等（GPT-5, 4o, etc）	67.8%
Google	Gemini	37.4%
Anthropic	Claude	36.6%
开源模型（Open source models）	开源自托管开源 API（未在图中细分）	34.2%
其他（Other）	其他模型厂商	5.9%

多模型并行在生产里通常对应三类诉求。

稳定性诉求，单一供应商不可用时要快速切换。成本诉求，低风险轮次用更便宜的模型，高风险轮次用更强的模型。合规诉求，敏感数据与特定地区的数据驻留要求，常常会推动开源自托管或私有化部署。

6.2 微调仍是少数派的原因

第九张表很直接。超过一半的团队没有微调，真正重度生产使用微调的占比更小。微调并非不重要，而是它的门槛更偏体系化。数据治理、标注体系、训练与部署流水线、版本回归，这些能力缺一块都会拖慢迭代。

6.2.1 表 9 模型微调使用情况

选项（Option）	含义（中文）	占比（Share）
Yes and use heavily in production	是并且在生产环境中大量使用微调模型	13.8%
Yes but just experimenting (mostly use base models)	是但主要还在实验阶段仍以基础模型为主	30.5%
No	否未进行微调	55.7%

把微调看成“提质捷径”往往会踩坑。更现实的排序是先把 RAG、工具契约、评测与观测做起来，再决定微调是否值得。微调更适合解决风格一致性、结构化输出稳定性、特定领域表达习惯这类问题，对事实正确性与工具闭环的提升有限。

6.3 生产环境的模型路由建议

多模型并行不是把多个 API 放在配置里就结束了，它需要一个能解释、能回放、能审计的路由层。下图给出一个更接近生产实践的路由结构，重点在于把风险控制与成本控制纳入同一条链路。

这种结构的要点是让路由策略可迭代。评测与观测的数据回传到策略层之后，团队才能持续回答一个关键问题，当前路由在质量、成本、延迟之间的平衡是否仍然成立。

◆ 七、日常高频使用的 Agent 把重心推向开发者场景

第十张表不是百分比，而是提及次数区间。它的价值在于告诉我们，哪类 Agent 更容易进入“每天都用”的习惯层。结果很集中，编程相关工具在榜单上占据明显优势。

7.1 日常使用最多的 Agent 提及次数

7.1.1 表 10 日常使用最多的 Agent 提及次数区间

排名（Rank）	Agent/产品（Agent/Product）	日常使用提及次数（Daily mentions）	备注（Notes）
1	Claude Code	120+	mentions 为提及次数区间
2	Cursor	110+
3	GitHub Copilot	80+
4	ChatGPT（OpenAI）	65+	图中为 OpenAI 标志

7.2 对企业落地的含义

开发者工具的高频使用并不等同于企业业务价值最大，但它经常带来两个连锁反应。

其一，研发团队更早适应 Agent 的工作方式，形成对提示、工具调用、上下文管理的工程直觉，这会降低企业内部推广的沟通成本。其二，代码场景天然具备可验证性，编译、测试、静态检查都能作为反馈信号，它会反向推动评测体系成熟。很多团队把评测与可观测做起来，第一块“试验田”就是研发场景。

◆ 八、把十张表合成一张路线图

把十张表按生产化链路重排，会得到一条更清晰的工程路线图。它不依赖某个具体框架，也不依赖某家模型供应商，更像一套面向生产的通用方法。

8.1 路线图的核心结论

生产占比上升说明 Agent 已经进入主航道。场景上客服与研究分析占主导。挑战上质量与延迟最突出。观测能力在多数团队普及，但仍有一部分缺位。评测方法上离线与线上并行，人工与 LLM-as-judge 并行。模型策略上多模型并行很常见，微调仍偏少数。日常使用层面开发者工具最容易形成习惯。

这些点放在一起，会得到一个更硬的判断。Agent 工程的竞争点正在从模型能力转向系统能力。

8.2 生产化最小能力集

很多组织希望一步到位做平台化，结果会在需求不稳定时堆出过度工程。更稳的方式是先定义生产化的最小能力集，确保每一个能力都能直接对冲调研中出现的痛点。

能力模块	最小交付物	对应痛点
可观测性	Trace 到步骤与工具调用结构化日志	质量问题难复盘延迟难定位
评测体系	离线回归集线上护栏指标	质量不可量化版本不敢发
工具契约	入参出参校验超时重试幂等	工具调用不稳定任务不闭环
风险治理	权限校验敏感过滤审计留痕	安全合规压力
成本控制	分层模型路由策略缓存	单任务成本失控
发布体系	灰度回滚版本对比	线上波动扩大

这张表强调一个现实。很多问题表面是模型问题，实际是工程护栏缺失。护栏齐备后，模型能力的提升才能稳定转化为业务收益。

8.3 从组织协作角度看投入顺序

从调研结果推导投入顺序时，需要兼顾组织协作成本。更容易落地的顺序通常是先内部，再对外。更容易量化的顺序通常是先有规则反馈的场景，再去做开放式场景。

一个常见的推进路径是先从内部生产力或研发助手切入，完成观测与评测的底座建设，再迁移到客服与数据分析这类更靠近业务与合规的场景。这样做的好处是底座能力在低风险场景中跑通，面对高风险场景时不至于边开车边造刹车。

结论

这组数据把 Agent 产业的阶段性特征表达得很清楚。生产落地在升温，规模越大的组织越倾向于把 Agent 放进生产链路。需求侧集中在客服、研究分析与内部生产力这三类信息密集场景。生产化的主要阻力集中在输出质量与延迟，安全合规紧随其后。多数团队开始补齐可观测性，链路追踪正在成为主流配置。评测手段上，离线与线上并行，人工评审与 LLM-as-judge 并行，传统相似度指标的作用在弱化。模型策略上，多模型并行已很普遍，微调仍然属于少数团队的重投入方向。日常使用层面，开发者工具的高频渗透，正在推动评测与工作流工程能力的成熟。

接下来一年，Agent 的差异化不会主要出现在“谁的模型更强”，而会出现在“谁能把不确定性纳入工程闭环”。能够把观测、评测、工具契约、权限治理、成本控制与发布体系连成一条链的团队，才更可能把 Agent 从局部试验变成可持续的生产能力。

📢💻 【省心锐评】

Agent 进入生产后，胜负手是可观测与评测闭环，模型只是可替换部件。

引言