【摘要】“LangChain的年末总结来了,基于1000多位一线调研,给出Agent生产化现状与评测、观测、治理的工程重点。”

引言

《LangChain 年末总结》报告,样本来自 1000 多位一线从业者,覆盖了从探索、开发到生产部署的不同阶段。它的价值不在于概念包装,而在于把“真实在生产里被痛到的点”做了结构化汇总,让读者能用一套可对照的数据坐标,判断自己的团队处在行业曲线的哪个位置。

报告之所以有参考意义,还因为 LangChain 处在 LLM 应用工程化生态的中心位置。IBM 对 LangChain 的定义强调它作为开源编排框架,用于构建聊天机器人与虚拟代理等 LLM 应用,并能把模型与外部数据源、软件工作流进行集成,这类定位使它更容易沉淀工程侧方法论与实践样本 15。生态的活跃度也在增强,CSDN 对 Interrupt 2025 的回顾提到,LangChain 举办了面向 AI Agent 的行业盛会,吸引了来自多地的 800 多位参与者,进一步说明其社区与产业连接的密度在上升 3。

在这样的背景下,这份年末调研更像一张工程现实的“体检报告”。它把生产落地比例、典型应用场景、主要挑战、可观测性建设、评测手段与指标、模型来源与微调采用等关键问题放在同一套统计口径下,适合用来反推下一阶段的投入顺序与架构重点。

◆ 一、生产落地的速度与结构

1.1 从 2024 到 2025 的迁移

团队是否把 Agent 放进生产环境,是判断“热度”还是“能力”的分界线。第一张表给了一个很直白的答案。2025 年“已在生产环境使用”的占比继续上升,同时“积极开发准备上线”的占比下降,这种组合通常意味着一批项目完成了从试验到上线的迁移。

1.1.1 表 1 公司是否已有 Agent 在生产环境

年份(Year)

已在生产环境使用

否,但在积极开发并计划上线

否,仅在探索

2024 受访者

51.2%

38.1%

10.7%

2025 受访者

57.3%

30.4%

12.3%

从工程视角读这张表,有三个结论更关键。

第一,生产占比提升 6.1 个百分点,说明“上线”不再是少数团队的特权。第二,开发中占比下降 7.7 个百分点,这部分人群很可能有两种去向,一部分进入生产,一部分在质量、合规、成本上遇到阻力而停滞。第三,探索占比小幅上升,通常代表新进入者更多,或者组织内部开始出现第二波新团队尝试 Agent。

1.2 不同规模企业的落地差异

规模决定了约束条件。小公司更容易试错,大公司更擅长把事情做成体系。第二张表把这种差异摊开,企业规模越大,“已在生产环境使用”的比例越高,同时大企业“仅探索”的比例更低。

1.2.1 表 2 不同公司规模的生产落地情况

公司规模

已在生产环境使用

否,但正在积极开发准备上线

否,仅在探索

初创(Startup, <100)

50%

36%

14%

成长期(Scale-up, 100–500)

50%

34%

16%

中型市场(Mid-market, 500–2K)

64%

22%

14%

中大型(Upper mid-market, 2K–10K)

53%

32%

14.5%

大型企业(Enterprise, >10K+)

67%

25%

8%

这张表不适合用“谁更先进”来解释,更适合用“约束结构”来解释。

中型市场与大型企业更容易把 Agent 推进生产,背后常见原因是流程与数据更成型,场景更稳定,预算更连续,治理团队更完整。初创与成长期公司“积极开发准备上线”的占比更高,往往不是因为不会上线,而是上线之后要承担的支持成本更敏感,质量与成本一旦失控就会反噬主营业务。

这里还有一个容易被忽略的细节。中大型企业(2K–10K)生产占比 53%,比 500–2K 低,这类组织经常处在治理与创新之间的拉扯期。业务复杂度上来了,平台化能力却未必同步完成,落地速度就会变得不稳定。

1.3 工程含义

落地比例上升意味着 Agent 的技术栈在发生重心迁移。PoC 阶段的主角是提示词与模型选择,生产阶段的主角变成了质量体系、观测体系、灰度体系、权限体系、成本体系。没有这些,团队上线越多,事故与返工越多,产能会被运维与排障吞掉。

把 Agent 做成产品,不是把模型接入业务,而是把不确定性接入工程体系。 这一点决定了后文几个主题的优先级。

◆ 二、需求侧的真实主场

2.1 最常见的应用场景分布

第三张表给出 Agent 需求侧的排序。客服与研究分析位居前二,这不是偶然。它们共同的特点是信息密集、任务路径可拆、对话入口自然,工具调用价值高。

2.1.1 表 3 Agent 主要应用场景分布

应用场景(Use case)

占比(Share)

客服(Customer service)

26.5%

研究与数据分析(Research & data analysis)

24.4%

内部效率/生产力(Internal productivity)

17.7%

代码生成(Code generation)

9.8%

内容生成(Content generation)

9.0%

销售/市场自动化(Sales/marketing automation)

6.0%

其他(Other)

6.7%

从结构上看,前三项占比接近七成。它们的共同点是对业务结果的定义相对清晰,适合先做“人机协作”,再逐步把闭环交给 Agent。

客服适合走“检索增强加流程分流”的路线,先把意图识别、知识查询、工单填充自动化,再把少量简单场景闭环。研究与数据分析适合走“工具调用加数据权限”的路线,模型负责提出计划、生成查询、汇总结论,人负责确认关键假设与风险。内部生产力适合走“组织知识库加审批流程”的路线,因为数据可控,权限边界更容易建立,合规压力也更低。

2.2 工程含义

需求侧排序会直接影响技术实现的权重。

客服更敏感的是延迟、稳定性、知识正确性、合规留痕。研究与数据分析更敏感的是数据访问权限、可复现性、工具链可靠性。内部生产力更敏感的是接入成本、组织知识结构、权限继承。代码与内容生成虽然占比不小,但更像局部能力的增强,很多团队会直接用成熟工具解决,而不是投入完整的 Agent 平台化建设。

因此,Agent 工程的第一优先级通常不是更强的推理,而是更可控的工具调用与更可度量的正确性。 这会把我们自然引向第四张表的挑战排序。

◆ 三、生产化的主要阻力来自哪里

3.1 挑战项的排序

第四张表的排序很“工程化”。输出质量第一,延迟第二,安全合规第三,随后才是部署与成本。这个排序意味着大多数团队已经跨过“能调用模型”的门槛,进入“能稳定交付”的门槛。

3.1.1 表 4 构建与上线 Agent 的主要挑战

挑战项(Challenge)

占比(Share)

输出质量(Quality of outputs)

32.9%

延迟/响应时间(Latency / response time)

20.1%

安全与合规(Security and compliance)

16.0%

部署基础设施(Deployment infrastructure)

13.9%

成本管理(Cost management)

12.8%

其他(Other)

4.2%

3.2 对“输出质量”的更细拆解

“输出质量”在 Agent 场景里不是单一概念,它至少包含四类问题。

一类是事实正确性,尤其在 RAG 与工具调用中,经常出现引用错误、摘要遗漏、跨文档冲突未处理。第二类是任务完成度,Agent 可能说得很好听,但没有把动作做完,例如漏掉关键参数、工具调用未闭环、状态未更新。第三类是策略一致性,同一类问题在不同对话轮次给出不同处理方式,导致用户信任崩塌。第四类是安全质量,输出中包含越权数据、敏感信息、不可执行指令,这类质量问题会被合规直接放大成事故。

当“质量”排到第一名,工程策略就要跟着变。提示词优化只能解决一部分,剩下更依赖可观测、评测、守护策略、工具契约与回归体系。

3.3 延迟为什么能排到第二

延迟不是体验问题那么简单,它通常意味着系统成本与系统结构。

客服场景里,用户对 2 秒与 8 秒的容忍度不同,超过阈值就会转人工,转人工就会把节省成本的逻辑反转。研究分析场景里,单次任务可能更长,但链路中每次工具调用都会叠加等待,导致整体完成时间失控。工程上常见的解法是做分层模型策略,常规轮次用低成本模型,高风险轮次用高能力模型,关键节点做并行工具调用与超时降级。

因此,延迟管理是架构问题,不是模型参数问题。 这也是可观测性成为硬需求的原因。

◆ 四、可观测性与治理能力开始分层

4.1 观测能力的普及度

第五张表显示,多数团队已经能追踪单个 Agent 的步骤与工具调用。这类能力一旦建立,排障模式会从“猜提示词”转为“查链路”,从“靠经验”转为“靠证据”。

4.1.1 表 5 Agent 可观测性建设情况

选项(Option)

含义(中文)

占比(Share)

Yes, I can trace individual agent steps and tool calls

是的,可以追踪单个 Agent 的步骤与工具调用(链路级追踪)

62.4%

Yes, but only basic logs/metrics

是的,但只有基础日志/指标(基础监控)

26.4%

No

没有建立可观测性

11.2%

4.2 观测能力的工程价值

链路级追踪并不等同于把对话存起来。它通常意味着三种结构化数据被系统性采集。

第一类是推理与决策过程的结构化记录,至少包括模型版本、提示版本、路由策略、关键中间状态。第二类是工具调用记录,包括入参、出参、错误码、耗时、重试次数、幂等键。第三类是安全与权限记录,包括用户身份、权限范围、数据来源、输出过滤策略命中情况。

只有这些数据齐备,团队才有能力做三件事。第一是定位问题出在模型、提示、检索、工具还是权限。第二是把线上事故沉淀成离线用例,纳入回归。第三是把成本与性能做拆解,知道钱花在模型上还是花在工具链上。

4.3 建议的观测与回归闭环

为了把“观测”变成“治理”,一个更可复用的工程闭环是把链路追踪与评测体系联动。这里给一个常用的最小闭环结构,团队可以按规模扩展。

这张流程图的重点不在“画得完整”,而在于把几个高频问题放到同一条链路上处理。质量退化能够快速被评测发现,事故能够快速沉淀为回归用例,版本发布能够有灰度与指标护栏。团队能否把这条链路跑顺,往往决定了上线之后的迭代速度。

◆ 五、评测体系从加分项变成底座

生产化之后,团队最痛的往往不是“不会做”,而是“做了也不知道有没有变好”。输出质量排第一的背景下,评测体系自然会成为工程投入的中心。第六张与第七张表把评测的做法与指标选型拆开呈现,两张表合起来读,信息更完整。

5.1 评测方式的主流组合

离线评测与线上评测并行,是目前更常见的路径。离线适合做回归与对比,线上适合验证真实业务指标。仍有近三成团队没有评测,这往往会把质量问题拖到线上才暴露,修复成本更高。

5.1.1 表 6 Agent 评估方式分布 可多选

评估方式(Evaluation method)

含义(中文)

占比(Share)

Offline evaluation on test sets

离线评估 基于测试集基准集评测

52.7%

Online evaluation on production data

在线评估 基于生产数据线上流量评测

38.3%

Not evaluating yet

目前还没有做评估

29.4%

Other

其他

1.7%

这类可多选题的占比相加会超过 100%,它反映的是手段覆盖率,而不是人群互斥分布。对架构师来说,更关键的是把离线与线上评测打通成闭环。

离线评测做得好的团队,会把线上真实对话与真实工具链失败案例,抽样脱敏后沉淀到回归集里。线上评测做得好的团队,会把关键指标做成发布护栏,版本灰度时先观察任务完成率、工具成功率、风险命中率,再逐步放量。

5.2 评测指标与方法的现实选择

第七张表显示,内部人工评审仍是第一选择,LLM-as-judge 紧随其后,传统 ROUGE 与 BLEU 这类指标的占比明显更低。这很符合 Agent 场景的本质。Agent 的问题往往不是“像不像标准答案”,而是“有没有把事办成,是否合规,是否可复现”。

5.2.1 表 7 Agent 评估指标与方法 可多选

评估指标/方法(Metric / approach)

含义(中文)

占比(Share)

Internal human review/labelling

内部人工评审 标注

59.8%

LLM-as-judge

用 LLM 充当评审 模型打分裁判

53.3%

Traditional ML/DS metrics (ROUGE, BLUE, etc)

传统 ML 指标 如 ROUGE BLEU 等

16.9%

Other

其他

1.3%

人工评审的优势在于可信度与业务语境理解,它的短板是吞吐与一致性。LLM-as-judge 的优势在于规模化与自动化,它的短板是需要校准,否则容易把评测变成“模型自嗨”。更稳妥的做法,是把两者做成互补关系。人工评审负责定义规则与抽样验真,LLM-as-judge 负责覆盖全量回归与快速迭代。

5.3 建一个能跑起来的评测矩阵

很多团队评测失败,不是因为缺方法,而是因为指标定义不成体系。Agent 的评测至少要覆盖三层目标,任务结果、过程可靠性、风险与成本。下面这张表不是调研数据,而是工程上更容易落地的评测矩阵,用来把第六第七张表的选择落到执行层面。

评测层级

关注点

典型指标

常用手段

结果层

是否完成任务

任务完成率 关键字段正确率 用户确认率

人工抽检 业务规则校验 LLM-as-judge

过程层

工具链是否稳定

工具成功率 重试率 超时率 幂等冲突率

Trace 回放 断言式测试 合约测试

风险成本层

是否可控可审计

越权命中率 敏感输出率 p95 延迟 单任务成本

策略引擎审计 线上护栏 成本分解

这张矩阵的核心目的是让团队在上线之前就能回答三个问题。任务是否有效,链路是否可靠,风险与成本是否可控。 任何一个问题缺答案,生产化都会变得被动。

◆ 六、多模型并行与微调选择的工程逻辑

第八与第九张表把模型使用与微调现状放在一起,能看出行业的主流路线。多数团队采用多模型并行,同时微调仍是少数派。对工程负责人来说,这不是模型能力问题,而是投入产出问题与组织能力问题。

6.1 模型来源的分布体现多供应商策略

OpenAI 的覆盖率最高,但 Google、Anthropic 与开源模型都占有相当比例。可多选意味着很多团队同时用多个来源,按任务路由与按成本路由正在成为常见做法。

6.1.1 表 8 Agent 使用的模型来源 可多选

模型来源(Model provider/type)

示例(Example)

占比(Share)

OpenAI

GPT‑5、4o 等(GPT-5, 4o, etc)

67.8%

Google

Gemini

37.4%

Anthropic

Claude

36.6%

开源模型(Open source models)

开源自托管 开源 API(未在图中细分)

34.2%

其他(Other)

其他模型 厂商

5.9%

多模型并行在生产里通常对应三类诉求。

稳定性诉求,单一供应商不可用时要快速切换。成本诉求,低风险轮次用更便宜的模型,高风险轮次用更强的模型。合规诉求,敏感数据与特定地区的数据驻留要求,常常会推动开源自托管或私有化部署。

6.2 微调仍是少数派的原因

第九张表很直接。超过一半的团队没有微调,真正重度生产使用微调的占比更小。微调并非不重要,而是它的门槛更偏体系化。数据治理、标注体系、训练与部署流水线、版本回归,这些能力缺一块都会拖慢迭代。

6.2.1 表 9 模型微调使用情况

选项(Option)

含义(中文)

占比(Share)

Yes and use heavily in production

是 并且在生产环境中大量使用微调模型

13.8%

Yes but just experimenting (mostly use base models)

是 但主要还在实验阶段 仍以基础模型为主

30.5%

No

否 未进行微调

55.7%

把微调看成“提质捷径”往往会踩坑。更现实的排序是先把 RAG、工具契约、评测与观测做起来,再决定微调是否值得。微调更适合解决风格一致性、结构化输出稳定性、特定领域表达习惯这类问题,对事实正确性与工具闭环的提升有限。

6.3 生产环境的模型路由建议

多模型并行不是把多个 API 放在配置里就结束了,它需要一个能解释、能回放、能审计的路由层。下图给出一个更接近生产实践的路由结构,重点在于把风险控制与成本控制纳入同一条链路。

这种结构的要点是让路由策略可迭代。评测与观测的数据回传到策略层之后,团队才能持续回答一个关键问题,当前路由在质量、成本、延迟之间的平衡是否仍然成立。

◆ 七、日常高频使用的 Agent 把重心推向开发者场景

第十张表不是百分比,而是提及次数区间。它的价值在于告诉我们,哪类 Agent 更容易进入“每天都用”的习惯层。结果很集中,编程相关工具在榜单上占据明显优势。

7.1 日常使用最多的 Agent 提及次数

7.1.1 表 10 日常使用最多的 Agent 提及次数区间

排名(Rank)

Agent/产品(Agent/Product)

日常使用提及次数(Daily mentions)

备注(Notes)

1

Claude Code

120+

mentions 为提及次数区间

2

Cursor

110+

3

GitHub Copilot

80+

4

ChatGPT(OpenAI)

65+

图中为 OpenAI 标志

7.2 对企业落地的含义

开发者工具的高频使用并不等同于企业业务价值最大,但它经常带来两个连锁反应。

其一,研发团队更早适应 Agent 的工作方式,形成对提示、工具调用、上下文管理的工程直觉,这会降低企业内部推广的沟通成本。其二,代码场景天然具备可验证性,编译、测试、静态检查都能作为反馈信号,它会反向推动评测体系成熟。很多团队把评测与可观测做起来,第一块“试验田”就是研发场景。

◆ 八、把十张表合成一张路线图

把十张表按生产化链路重排,会得到一条更清晰的工程路线图。它不依赖某个具体框架,也不依赖某家模型供应商,更像一套面向生产的通用方法。

8.1 路线图的核心结论

生产占比上升说明 Agent 已经进入主航道。场景上客服与研究分析占主导。挑战上质量与延迟最突出。观测能力在多数团队普及,但仍有一部分缺位。评测方法上离线与线上并行,人工与 LLM-as-judge 并行。模型策略上多模型并行很常见,微调仍偏少数。日常使用层面开发者工具最容易形成习惯。

这些点放在一起,会得到一个更硬的判断。Agent 工程的竞争点正在从模型能力转向系统能力。

8.2 生产化最小能力集

很多组织希望一步到位做平台化,结果会在需求不稳定时堆出过度工程。更稳的方式是先定义生产化的最小能力集,确保每一个能力都能直接对冲调研中出现的痛点。

能力模块

最小交付物

对应痛点

可观测性

Trace 到步骤与工具调用 结构化日志

质量问题难复盘 延迟难定位

评测体系

离线回归集 线上护栏指标

质量不可量化 版本不敢发

工具契约

入参出参校验 超时重试 幂等

工具调用不稳定 任务不闭环

风险治理

权限校验 敏感过滤 审计留痕

安全合规压力

成本控制

分层模型 路由策略 缓存

单任务成本失控

发布体系

灰度 回滚 版本对比

线上波动扩大

这张表强调一个现实。很多问题表面是模型问题,实际是工程护栏缺失。护栏齐备后,模型能力的提升才能稳定转化为业务收益。

8.3 从组织协作角度看投入顺序

从调研结果推导投入顺序时,需要兼顾组织协作成本。更容易落地的顺序通常是先内部,再对外。更容易量化的顺序通常是先有规则反馈的场景,再去做开放式场景。

一个常见的推进路径是先从内部生产力或研发助手切入,完成观测与评测的底座建设,再迁移到客服与数据分析这类更靠近业务与合规的场景。这样做的好处是底座能力在低风险场景中跑通,面对高风险场景时不至于边开车边造刹车。

结论

这组数据把 Agent 产业的阶段性特征表达得很清楚。生产落地在升温,规模越大的组织越倾向于把 Agent 放进生产链路。需求侧集中在客服、研究分析与内部生产力这三类信息密集场景。生产化的主要阻力集中在输出质量与延迟,安全合规紧随其后。多数团队开始补齐可观测性,链路追踪正在成为主流配置。评测手段上,离线与线上并行,人工评审与 LLM-as-judge 并行,传统相似度指标的作用在弱化。模型策略上,多模型并行已很普遍,微调仍然属于少数团队的重投入方向。日常使用层面,开发者工具的高频渗透,正在推动评测与工作流工程能力的成熟。

接下来一年,Agent 的差异化不会主要出现在“谁的模型更强”,而会出现在“谁能把不确定性纳入工程闭环”。能够把观测、评测、工具契约、权限治理、成本控制与发布体系连成一条链的团队,才更可能把 Agent 从局部试验变成可持续的生产能力。

📢💻 【省心锐评】

Agent 进入生产后,胜负手是可观测与评测闭环,模型只是可替换部件。