【摘要】针对当前 AI Agent 生产落地中普遍存在的多轮人工调试、效率低于手动操作的问答循环困境,系统梳理 AI 工程领域从提示词、上下文、防护架构到循环机制的四层技术演进路径,结合行业一线实践拆解 Loop Engineering 的核心架构、标准执行流程与开源生态,为技术团队提供从人工问答到自主闭环的可落地方案。
引言
AI Agent 正在从概念验证快速走向生产落地,几乎所有技术团队都在尝试将大模型能力嵌入研发、运维、运营等核心工作流。真实落地过程中,绝大多数团队都陷入了相似的效率陷阱:工程师需要反复将报错信息、测试结果、审查意见反馈给 Agent,经过五六轮甚至更多轮调试才能完成一个简单任务,整体耗时甚至超过纯手动操作。Agent 能够生成单次方案,却无法自主验证方案有效性、根据反馈修正问题、自主推进任务到最终交付,始终停留在 “高级问答工具” 的层面。
这一困境的本质,是当前 AI 工程的重心仍停留在单次交互优化,没有构建起支撑多步骤自主执行的闭环机制。从 2025 年底开始,行业内开始出现 Loop Engineering 的实践方向,通过设计自动化循环机制,让 Agent 能够自主完成从问题识别到最终交付的全流程。2026 年 6 月,Peter Steinberger 在社交平台的观点引发行业广泛共鸣:“你不应该再给编码 Agent 写提示词了,你应该设计循环来提示你的 Agent。” 这条内容获得超 800 万次浏览,标志着 Loop Engineering 正式从少数人的实践走向行业共识。
本文系统梳理 AI 工程的四层技术演进脉络,拆解 Loop Engineering 的核心架构、标准流程与落地方法,结合主流开源项目的实践经验与一线从业者的真实踩坑记录,为技术团队提供可落地的参考路径。本文适合 AI 架构师、后端研发工程师、技术管理者以及所有关注 Agent 生产化落地的从业者阅读。
一、四层技术演进:从单次交互到自主闭环的范式跃迁
%20拷贝.jpg)
AI 工程的发展不是技术的线性迭代,而是逐层包裹的范式升级。每一层技术都在解决上一层的核心局限,同时将人类对 AI 的管控点向更抽象的层级迁移。四层技术之间不是替代关系,而是基础与延伸的关系,上层架构建立在下层能力的基础之上。
1.1 第一层:Prompt Engineering
Prompt Engineering 的核心问题,是如何向模型提问以获得更好的输出。这一阶段的核心假设是模型能力固定,输出质量的核心变量是提问的方式与内容。思维链、少样本学习、角色设定、格式约束等技巧,都是围绕这一核心假设衍生的实践方法。
这一层级的技术将大模型从 “随机生成器” 变成了可控的内容生产工具,也让大量非算法背景的工程师能够快速利用大模型能力。2023 年 Andrej Karpathy 提出 “最热门的编程语言是英语”,正是对这一阶段特征的精准概括。
但 Prompt Engineering 存在四个结构性的先天局限,决定了它无法支撑复杂任务的自主执行。第一是上下文硬限制,无论模型上下文窗口扩展到多大,提示词的长度始终存在物理上限,且过长的上下文会稀释关键信息的注意力权重,反而降低输出质量。第二是无状态遗忘,主流大模型本身不具备持久化记忆能力,每次对话结束后上下文清空,多轮迭代的任务每次重启都需要重新注入背景信息。第三是幻觉与注意力漂移,任务步骤越多、对话轮次越长,模型偏离初始约束的概率越高,精心设计的规则可能在第十步之后就被完全忽略。
最致命的局限是第四点:人始终是循环中的核心决策节点。AI 生成结果后,需要人审核、修改、复制、执行、验证、反馈,整个流程的发动机是人而非 AI。Prompt Engineering 只能优化单次交互的质量,无法构建连续自主运行的任务系统,提示词是接口,而非完整的解决方案。
1.2 第二层:Context Engineering
Context Engineering 的核心问题,是应该让模型看到哪些信息。这一阶段的认知转变,是从纠结措辞转向控制模型推理的信息环境。系统提示定义角色与约束,MCP 协议接入外部工具能力,RAG 技术即时注入检索结果,对话历史维持任务连贯性,这些都是上下文工程的核心手段。
Anthropic 将 Context Engineering 定性为 Prompt Engineering 的自然演化,问题的视角从 “如何问一个好问题” 转向 “如何设计一个好的信息环境”。充足且精准的上下文,能够显著降低模型的幻觉概率,提升输出的领域适配性,也让 Agent 具备了调用外部工具的基础能力。
但 Context Engineering 同样有清晰的能力边界。它解决了信息供给的准确性问题,没有解决任务推进的动力问题。一个配置了完整上下文的 Agent,面对需要多轮迭代、跨会话执行的复杂任务时,依然会卡住。没有人的介入,它无法判断上一步是否成功,无法决定下一步该执行什么操作,也无法在遇到异常时自主调整路径。
同时上下文窗口被填满后,模型会进入 “急于完成” 的状态,出现仓促收尾、质量骤降的现象,也就是行业内所说的上下文焦虑。这一问题仅靠扩展窗口大小无法彻底解决,需要更上层的机制来管控信息的注入节奏。
1.3 第三层:Harness Engineering
Harness Engineering 的核心问题,是应该给 Agent 搭建什么样的运行环境。HashiCorp 创始人 Mitchell Hashimoto 提出了核心洞察:每次 Agent 出错,与其修改提示词让它下次做得更好,不如改变系统结构,让这个错误在结构上无法再次发生。这是从 “调教模型” 到 “设计防错系统” 的根本转变。
Agent 的完整能力等于模型加上 Harness。模型提供推理与生成能力,Harness 则将这种能力转化为可信赖、可重复的生产力。一个完整的 Harness 架构通常包含五个层级,工具编排层定义 Agent 可调用的系统与权限,验证循环层提供每一步输出的机器验证机制,上下文与记忆层实现跨会话的状态持久化,护栏与约束层划定 Agent 的行为边界,可观测性层负责日志、追踪与成本监控。
Harness 架构解决了大量 Agent 的可靠性问题。OpenAI Codex 团队仅三人,在五个月内产出约一百万行生产级代码且零手写,核心支撑就是严格的 Harness 架构约束,而非更优的提示词。但 Harness 本质是静态的基础设施,它搭建好了车间、配置好了工具、制定好了流程,却无法回答动态运行的问题。谁来决定生产目标、谁来验收产出、谁来处理异常情况,这些问题需要第四层技术来解决。
1.4 第四层:Loop Engineering
Loop Engineering 的核心问题,是应该设计什么样的循环机制,让 Agent 能够自主运行。2026 年 6 月 2 日,Claude Code 作者 Boris Cherny 在行业活动中公开表示:“我不再给 Claude 写提示词了。我有循环在运行,它们自己给 Claude 发指令,自己决定下一步怎么做。我的工作是写循环。”2026 年 6 月 7 日,Google 工程总监 Addy Osmani 正式命名这一领域,并给出明确定义:替代人成为提示 Agent 的角色,由系统来完成对 Agent 的调度与反馈。
Harness 是静态的运行环境,Loop 是动态的运行机制。Harness 搭建好了生产车间,Loop 则是完整的排班、执行、验收、异常处理制度,决定每个周期的生产目标、任务分配方式、验收标准与异常处理流程。Loop Engineering 的本质,是将人和 AI 的协作模式从 “问答式交互” 升级为 “闭环式自动化”,不再是人问一句 AI 答一句,而是人给出目标,系统自主跑完全流程。
这一层级的出现,是 AI 工程从 “工具辅助” 走向 “自主系统” 的关键转折点。它不依赖模型能力的突破,而是通过工程架构设计,释放出大模型本就具备的推理与执行潜力,让 Agent 真正成为能够独立完成任务的主体。
表格
很多团队会有疑问,是不是有了 Loop Engineering,前面三层技术就失去了价值。答案是否定的,四层技术是层叠关系,Loop Engineering 建立在前三层的基础之上。没有高质量的提示词、精准的上下文供给、可靠的运行环境,循环机制再完善也无法产出合格的结果。每一层技术都有其不可替代的价值,上层技术是对下层能力的封装与放大,而非替代。
二、破局点:为什么 Loop 是 Agent 落地的核心
判断一项技术是否具备生产价值,最直接的方式是对比引入前后的工作流差异。我们以修复数据库慢查询这类典型的多轮迭代任务为例,通过流程图直观对比两种模式的运行逻辑与效率差异。

2.1 传统 Agent 工作流:人作为循环发动机
没有 Loop 机制的支撑下,完成一个慢查询优化的典型流程包含多个依赖人工推进的节点。首先由工程师识别问题,打开 AI 助手输入需求与相关上下文;AI 生成优化方案后,工程师复制代码到本地执行测试;测试报错后,工程师整理报错信息贴回对话,AI 再调整方案;调整后再次执行测试,测试通过后提交代码审查,审查提出修改意见,工程师再反馈给 AI。整个过程需要循环往复,直到所有环节通过,或者工程师放弃手动完成。
这种模式的核心特征是每个环节都需要人手动推进,AI 只是辅助工具,人才是整个循环的发动机。人一旦离开工位,整个流程就会停滞。Agent 不记得历史对话、不熟悉项目规范、不了解之前踩过的坑,每次任务都相当于从零开始。这也是很多团队感觉 “用 AI 还不如自己写快” 的核心原因,人工衔接的成本抵消了 AI 生成的效率收益。
2.2 Loop 驱动工作流:目标导向的自主闭环
引入成熟的 Loop 机制后,同样的任务流程会发生本质变化。工程师只需要在代码仓库提交 Issue,明确优化目标与约束条件,Loop 就会自动识别任务并触发处理流程。Loop 会自动加载项目的完整上下文,包括代码库结构、历史优化记录、团队代码规范、测试流程;随后在隔离环境中完成问题分析、代码修改、本地测试;测试通过后,Loop 会调度独立的验证子 Agent 进行代码审查;验证通过则自动提交 PR,未通过则自主修正后再次迭代;遇到超出权限或风险较高的决策点,Loop 会带着完整的上下文信息升级给人工处理;任务完成后,Loop 会自动记录本次处理的经验,更新项目知识库。
这种模式下,人只在定义目标和关键决策节点介入,其余环节全部自动闭环。下一次遇到同类问题,Loop 可以直接复用历史经验,处理速度会持续提升。整个流程的发动机从人变成了持续运行的循环系统,工程师的工作从 “反复调试 Agent” 变成了 “设计与优化循环机制”。
Boris Cherny 曾总结过长时间自主运行 Agent 的五条核心经验,恰好对应了 Loop 模式的关键设计要点:使用自动权限模式避免反复申请确认;采用动态工作流编排大量子 Agent 协同完成任务;通过目标指令驱动 Agent 持续运行直到完成;云端部署实现离线运行;配套端到端的自验证机制保障产出质量。这五条经验已经成为行业内搭建无人值守 Loop 的通用参考标准。
2.3 效率提升的数据佐证
闭环自动化带来的效率提升已经在多个生产环境中得到验证。Boris Cherny 从 2025 年 11 月起,个人产出的代码 100% 由 Claude Code 完成,每天提交 10 到 30 个 PR。Anthropic 内部数据显示,引入 Loop 化的开发模式后,每位工程师的代码产出增长 200%,PR 合并量增长 67%。公开 GitHub 平台上,约 4% 的代码提交已经由 Claude Code 自动生成。
核心转变在于,工程师不再一轮一轮地手动驱动 Agent,而是设计一个能够自动驱动 Agent 的系统。 这种角色的转变,是 AI 生产力从加法效应走向乘法效应的关键拐点。
三、“智能办公室” 分析框架:Loop 系统的核心原语
%20拷贝.jpg)
理解 Loop Engineering 最好的方式,是类比真实运转的办公室。一个高效的办公室本身就是一套成熟的循环系统,有明确的角色分工、流程规范、知识沉淀与异常处理机制。Loop 系统本质上就是将办公室的运转逻辑,通过工程手段自动化为 AI 运行系统。
3.1 办公室角色与 Loop 原语的对应
一个运转良好的办公室,包含前台、工位、档案、通讯、分工、项目记录等核心要素,对应到 Loop 系统中,就是六个核心原语。具体对应关系如下:
这套框架的核心价值,是将抽象的 Loop 技术映射到大家熟悉的组织管理逻辑中。设计一个 Loop 系统,本质上和搭建一个高效的小型团队遵循相同的原则,明确分工、权责清晰、知识沉淀、流程闭环。
3.2 五大核心原语拆解
3.2.1 Automations/Scheduling:自动触发机制
自动触发是 Loop 的心脏,没有调度机制的任务只能算脚本,不能称为循环。触发方式主要分为两类,时间驱动和事件驱动。时间驱动即定时任务,比如每天凌晨扫描依赖更新、每周执行一次代码质量巡检;事件驱动即钩子触发,比如有人提交 Issue 自动启动修复流程、有人发起 PR 自动触发代码审查。
成熟的 Loop 设计通常采用两种触发方式互补的模式,时间驱动负责定期巡检类的任务,事件驱动负责实时响应类的需求。触发机制设计不当的后果不是系统不工作,而是总在不合适的时机运行,比如在产品演示时自动触发重构流程,造成不必要的干扰。
3.2.2 Worktrees:工作树隔离
工作隔离是保障并行能力的基础。当多个 Loop 同时运行时,如果操作同一个工作目录,就会出现互相覆盖、合并冲突的问题,类似两个人同时编辑同一份文档。Git worktrees 机制可以让每个 Agent 拥有独立的工作目录,任务完成后再通过标准的 Git 流程合并回主分支。
这种隔离不只是技术层面的便利,更是结构性的风险保障。单个 Loop 执行失败,不会污染其他 Loop 的工作成果。需要注意的是,Loop 的并行上限往往不是由算力或模型并发数决定,而是由人工审查的带宽决定。再多的 Agent 并行产出 PR,最终都需要人来审核,审查队列的消化速度才是真正的瓶颈。
3.2.3 Skills:项目技能与知识
Skills 是项目意图的持久化载体。通常以 SKILL.md 这类文档的形式存在,编码了项目约定、构建命令、代码规范、领域知识、历史决策等信息。没有 Skills 的支撑,Loop 每次执行任务都需要从零推导规则,持续累积 “意图债务”。
Skills 的核心设计原则是一次编写、多次调用。将团队反复强调的规范、踩过的坑、固定的流程都沉淀到 Skills 文档中,Loop 每次执行任务时自动加载,能够大幅降低出错概率,也避免了每次都在提示词中重复相同的约束。
3.2.4 Plugins & Connectors:外部连接器
连接器是 Loop 接触真实世界的接口。只有对接了真实的业务系统,Loop 的产出才有实际价值。常见的对接系统包括代码仓库、项目管理工具、即时通讯软件、数据库、云服务等。
MCP(Model Context Protocol)正在成为这一层的通用标准协议。它的核心价值是统一了 Agent 调用外部工具的接口规范,无论对接 GitHub、Jira 还是 Slack,都可以通过同一套协议访问。新工具的接入成本从编写一整套集成代码,降低为注册一个 MCP 服务,大幅提升了 Loop 系统的扩展能力。连接器的完整程度,直接决定了 Loop 能够解决的问题边界。
3.2.5 Sub-agents:子 Agent 分工
子 Agent 是 Loop 系统最重要的结构性设计模式。核心原则是执行者不能兼任裁判,负责写代码的 Agent 不能评判自己的工作质量。需要设置独立的验证 Agent,使用不同的提示词、甚至更强的模型,负责对产出结果进行独立审查。
这种 Maker/Checker 分离的架构,是无人值守 Loop 能够安全运行的核心保障。缺少验证环节的循环,会规模化地生产 “自信的错误”,运行速度越快,累积的问题越多。
3.3 记忆系统的三层结构
模型本身不具备跨会话的长期记忆,Loop 系统必须通过持久化存储来维持状态连续性。一个完善的记忆系统分为三个层级,各自承担不同的作用。
最上层是即时状态层,记录本次循环的执行过程、中间结果、当前进度,保障当前循环的执行不偏离方向。中间层是项目知识层,也就是 Skills 文档承载的内容,保障 Loop 的行为符合团队规范与项目约定。最底层是历史经验层,沉淀过去循环中总结的通用规则、踩坑记录与优化方法,保障系统不会在同一个地方反复出错。
很多团队在搭建记忆系统时容易陷入误区,把记忆等同于保存聊天历史。实际上原始的聊天记录只是素材,只有经过提炼、验证、转化为可复用规则的信息,才能真正提升后续任务的效率。
3.4 最小可用循环的四要素
搭建第一个 Loop 不需要复杂的架构,一个最小可用的循环只需要四个核心要素。第一个是触发机制,明确任务什么时候启动;第二个是标准化指令,明确任务的目标与执行规范;第三个是状态文件,记录执行过程与结果;第四个是验证关卡,明确判断任务完成的标准。
搭建 Loop 的正确顺序不能颠倒。应该先手动把任务完整跑通一遍,整理出可复用的执行指令,再封装进循环机制,最后配置自动触发。跳过手动验证直接上自动化,大概率会出现各种预期外的问题,反而增加维护成本。
四、标准 Loop 九步落地流程:从触发到沉淀的完整闭环
我们以 GitHub 上 cobusgreyling/loop-engineering 项目的流程为基础,结合行业通用的最佳实践,拆解标准 Loop 的九个执行步骤。先通过整体流程图掌握完整闭环逻辑,再逐一拆解每个环节的设计要点与风险点。

理解每个步骤的核心不是记住顺序,而是明白每一步解决的问题,以及跳过之后会带来的后果。
4.1 第一步:任务触发
这是整个循环的起点,也是最容易被忽略的环节。很多工程师的第一反应是手动触发就足够,但手动触发的任务本质是脚本,不是循环。Loop 的核心区别在于,系统自己知道什么时候应该启动。
触发方式分为时间驱动和事件驱动两类。时间驱动适用于定期巡检类任务,比如每日依赖安全扫描、每周代码质量检查。事件驱动适用于响应式任务,比如用户提交 Issue 自动触发修复、代码推送自动触发测试与审查。成熟的设计会同时使用两种触发方式,形成 “定期巡检 + 实时响应” 的完整覆盖。
触发机制的设计需要考虑降噪与权限控制。过于灵敏的触发会导致大量无效循环,浪费算力与 token 成本;过于迟钝则失去了自动化的意义。需要根据任务的性质,设置合理的触发阈值与冷却时间。
4.2 第二步:任务分流
任务进入系统后,第一步不是立刻执行,而是进行分类与优先级判断。分流包含两个层面,一是任务类型判断,区分是 Bug 修复、功能开发、依赖升级还是安全补丁,不同类型对应不同的执行流程与审批规则;二是优先级排序,判断哪些任务需要立刻处理,哪些可以排队,哪些直接拒绝处理。
任务分流是整个系统的 “前台”,核心作用是确保每个任务进入正确的处理通道。如果跳过这一步,所有任务都会涌入同一条流水线。一个简单的依赖更新和一个涉及核心架构的重构,需要的资源、审批流程、验证标准完全不同。不加区分直接执行,轻则浪费算力资源,重则让高风险操作绕过必要的审查环节,引发生产事故。
4.3 第三步:读取状态
动手执行之前,Loop 必须先读取当前的系统状态。读取的内容包括当前项目的状态文件、历史执行记录、已知问题、团队规范等。这些信息决定了 Loop 的执行不是从零开始的盲目操作,而是基于历史经验的有序推进。没有状态读取的 Loop,就像从不看项目文档的新人,每次都会重复踩同样的坑。
一个设计良好的状态文件,应该能够清晰回答三个问题:当前任务进展到哪一步?之前尝试过哪些方案、结果如何?有哪些事项正在等待人工处理?
4.4 第四步:工作隔离
正式执行前,需要为本次任务创建独立的工作目录,也就是 Git worktree。这一步解决的是并发冲突问题。多个 Loop 同时运行时,如果共享同一个工作目录,会出现代码互相覆盖、合并冲突频发的问题,严重时甚至会破坏主分支的代码。
每个任务对应一个独立的工作目录,执行完成后通过标准的分支、PR 流程合并回主分支,既保障了并行执行的安全性,也符合常规的代码管理规范。这种隔离机制同时也是一种风险屏障,单个 Loop 执行失败甚至出现破坏性操作,都不会影响主仓库的稳定性。
这里需要注意一个容易被忽视的瓶颈:审查带宽。系统可以轻松启动十个并行的 Loop 同时工作,但产出的十个 PR 最终都需要人工审核。如果团队的审查能力有限,再高的并行度也无法转化为实际产出,只会造成任务堆积。
4.5 第五步:执行落地
这是 Loop 的核心执行环节,由一个独立的子 Agent 根据分流结果与加载的上下文,实际完成任务工作。它负责编写代码、修改配置、执行脚本,将 “要做什么” 的目标转化为 “已经做完” 的产出。
采用子 Agent 而非主 Loop 直接执行,有三方面的设计考量。第一是上下文隔离,主 Loop 保留全局调度视角,子 Agent 只需要在聚焦的上下文中工作,避免信息过载导致的注意力漂移。第二是模型选择灵活,执行环节可以用速度快、成本低的模型,验证环节可以用能力强、精度高的模型,实现成本与质量的平衡。第三是支持并行执行,主 Loop 可以同时调度多个子 Agent 处理不同任务,提升整体吞吐量。
子 Agent 的行为边界完全由 Skills 定义,包括可调用的工具范围、必须遵守的规范、需要暂停请示的场景。缺少 Skills 约束的子 Agent,就像没有操作手册的新人,可能会做出各种超出预期的操作,可靠性无法保障。
4.6 第六步:独立验证
这是整个 Loop 架构中最关键的设计决策:执行者不能验证自己的工作。这不是管理建议,而是必须遵守的结构性约束。
大模型存在系统性的自我确认偏差。当模型刚完成一段代码编写,它会被自己的输出锚定,审查时会倾向于认可自己的逻辑,对明显的错误视而不见。这不是模型能力不足,而是上下文的惯性导致的,刚写完的逻辑占据了工作记忆,检查时会自然顺着自己的思路走。
因此验证环节必须由独立的子 Agent 承担,运行在完全干净的上下文中。它看不到实现过程,只能看到最终产出和验收标准。验收标准必须来自预先定义的客观规则,包括测试用例、代码规范、安全要求等可逐条检查的条目,而不是模糊的质量评价。
如果缺失或弱化验证环节,Loop 会规模化地生产 “自信的错误”。运行速度越快,累积的错误越多,而且每次系统都认为自己的输出没有问题。
4.7 第七步:机器验收
除了 AI 的主观验证,Loop 还需要一层确定性的机器验证。测试套件、类型检查、静态扫描、编译构建,这些都是不可谈判的硬门槛。通过就是通过,不通过就是不通过,不存在模糊空间。
这一层的设计原则是,能用机器判定的内容,绝不依赖 AI 判断。AI 可以评估架构合理性、代码可读性这类偏主观的内容,但测试通过率、编译是否成功、有无新增静态扫描报错这类客观标准,交给确定性程序执行的可靠性远高于另一个大模型。
验收门的设置需要平衡松紧度。门槛太松,不合格的代码会流入下游;门槛太严,Loop 永远无法通过验证,持续空转消耗资源。成熟的策略是分级设置验收门,编译与核心测试设置为硬门槛,不通过不能进入下一环节;代码风格、注释规范设置为软门槛,不通过可以继续但必须后续修复;性能指标、复杂度指标设置为观察门,只记录数据不阻断流程。
4.8 第八步:系统对接
验证通过之后,产出需要同步到真实的业务系统中才能产生价值。这一步是 Loop 与外部世界的接口,包括提交 Git 提交、创建 Pull Request、更新项目管理工单、发送通知消息、触发下游 CI 流水线等。
MCP 协议正在成为这一层的事实标准。它的价值不在于对接某一个具体工具,而在于提供了统一的接口规范。所有外部工具都可以通过 MCP 服务接入,Agent 不需要针对每个工具单独开发适配逻辑。新工具的接入成本大幅降低,Loop 系统的能力边界可以快速扩展。
缺少这一步的 Loop 只是封闭沙箱中的演示系统。流程跑得再顺畅,产出落不到真实系统中,就无法产生实际的业务价值。
4.9 第九步:人工决策与状态沉淀
这是整个流程的分叉点,也是闭环的收尾环节。Loop 需要在这一步判断,当前任务是否可以自主收尾,还是必须升级给人工决策。判断的核心依据不是 “能不能做完”,而是 “出问题的后果能不能兜住”。比如修改一行配置,回滚成本很低,可以自动通过;涉及数据库表结构变更,影响范围广、回滚难度大,就必须人工确认。
好的升级机制不是简单抛出一句 “需要确认”,而是带着完整的上下文升级。提交给工程师的信息应该包括:做了什么改动、为什么这么改、验证结果如何、存在哪些潜在风险、推荐的操作是什么。工程师拿到的是一个信息充分的审批题,只需要做判断,不需要从头梳理上下文。
判断结果分为两个分支。需要人工介入的,Loop 暂停在当前节点,等待人工决策后继续执行。暂停不是系统缺陷,而是刻意的安全设计,也是 Loop 比无限制自动化更安全的核心原因。不需要人工介入的,自动执行提交合并。即使是自动提交,也必须保留完整的审计日志与决策链路,出现问题可以回溯到具体的循环、判断依据与执行时间。
无论走哪条分支,最终都需要将本次循环的执行过程、决策结果、经验教训写入状态文件,完成知识沉淀。缺失这一步,下次触发循环时,系统不知道上次的工作进度与经验,要么重复劳动,要么重复踩坑。
九个步骤共同构成了完整的认知闭环:感知(触发 + 分流)→ 理解(读取状态)→ 隔离(工作树)→ 执行(实现子 Agent)→ 验证(验证子 Agent + 机器测试)→ 对接(外部系统)→ 决策(人工判断)→ 产出(提交或升级)→ 记忆(写入状态)。跳过任何一个步骤,都会在对应维度引入风险,具体对应关系如下:
一个设计优秀的 Loop,不需要每个环节都做到极致,只需要每个环节都刚好覆盖,没有明显的短板与漏洞。
五、开源生态全景:从方法论到企业级治理的完整技术栈
%20拷贝.jpg)
Loop Engineering 的快速发展,已经催生出分层明确的开源技术生态。不同项目分别覆盖方法论规范、治理框架、技能体系、领域应用四个层级,团队可以根据自身落地阶段与需求,选择对应的工具与参考方案。四个代表性项目并非互相竞争的关系,而是各自占据生态的不同位置,共同构成了从入门到规模化落地的完整路径。
5.1 cobusgreyling/loop-engineering:方法论与模式库
作为 Loop Engineering 领域最具影响力的方法论文档,cobusgreyling/loop-engineering 是多数团队入门的首选参考。这个仓库不止是代码集合,更是一套经过生产验证的实践指南,收录了 7 个覆盖不同场景的生产级 Loop 模式,从简单的定时巡检任务到复杂的多 Agent 协作流程都有对应的实现参考。
项目同时提供 3 个 CLI 工具,支持开发者在命令行中直接管理循环的启动、暂停与状态查看;附带完整的安全指南,涵盖权限最小化、密钥定期轮换、全链路审计日志等生产环境必备的管控要求;还整理了大量真实的失败案例,包括 Ralph Wiggum 无效循环、过度烘焙导致的质量下降等常见翻车模式,帮助团队提前规避风险。
它提出的五原语框架已经成为行业内的通用参考模型,核心主张非常明确:Loop 工程的核心目标,是替代人成为提示 Agent 的角色,由设计者构建一套系统来完成对 Agent 的调度与反馈。用智能办公室模型来对应,这个仓库就是办公室的管理制度手册,定义了角色分工、流程规范与异常处理的通用规则。
5.2 loopengine/loop-engine:企业级治理框架
loop-engine 定位为企业级的 Loop 治理框架,提供完整的 SDK、执行者模型、信号机制与适配器模块,原生兼容 Vercel AI SDK、OpenAI、Anthropic 等主流大模型后端,适合需要规模化落地多套 Loop 系统的中大型团队。
它的核心创新是 wrapTool 治理模式,给所有 AI 工具调用包上一层统一的治理循环。团队可以根据操作的影响等级设置差异化的审批规则,比如高影响操作强制人工审批,低影响操作自动放行,从架构层面解决了 “AI 自主行动的边界在哪里” 这个核心问题。
项目官方提供了从入门到高级的多个生产级示例,入门级的费用审批循环实现了基础的人工审批流;中级的智能补货循环结合了 AI 推荐与人工审批门;高级的基础设施变更审批循环加入了爆炸半径分析与 SRE 审批环节;欺诈审核循环则实现了 AI 初筛加条件升级人工的完整链路。
它的核心设计思想并非追求全自动化,而是高自动化比例配合关键节点人工审批。人保留最终决策权,AI 承担全流程的执行权。对应到智能办公室模型,它就是办公室的分级审批系统,明确不同等级事项的审批权限与升级规则。
5.3 obra/superpowers:标准化 Agent 技能体系
obra/superpowers 是目前生态中最成功的 Agent 技能框架,在 GitHub 拥有超 22 万星标。项目由 Request Tracker 作者 Jesse Vincent 主导打造,内置 14 个标准化技能模块,覆盖完整的软件开发生命周期,核心目标是强制 AI 遵循专业的工程开发流程。
项目定义了七阶段标准开发工作流,从头脑风暴、工作树创建、方案规划、代码执行、测试验证、代码审查到最终收尾,每个环节都有明确的执行规范。它的核心创新是子 Agent 驱动开发模式,每个任务分配一个全新的子 Agent 独立执行,并设置两级审查机制,一级验证代码与需求规格的符合性,一级验证代码质量与规范符合性。
框架强制推行测试驱动开发流程,严格遵循红 - 绿 - 重构的执行顺序,先编写测试用例,再实现功能代码,最后进行重构优化。不符合流程的输出会被系统强制退回,从机制上保障产出质量。项目目前跨平台支持 Claude Code、Cursor、Codex 等多种主流 AI 开发工具,2026 年 1 月正式进入 Anthropic 官方插件市场。
用智能办公室模型解读,它就是办公室的标准化员工培训体系,给执行者明确的操作规范与流程标准,确保即使是基础能力的 Agent,也能遵循专业流程产出合格的结果。
5.4 autoresearch-skill:研究场景的 Loop 延伸
autoresearch-skill 项目受 Karpathy 提出的 autoresearch 理念启发,展示了 Loop 机制在研发场景之外的应用可能。它证明了不只是工程开发任务可以 Loop 化,研究分析类任务同样可以通过循环机制实现自动化。
给定一个明确的研究目标,系统可以自动完成资料检索、信息筛选、内容分析、结论总结、迭代优化的全流程,直到得出可靠的研究结论,或者遇到需要人工判断的关键节点再升级介入。这个项目的价值在于验证了 Loop 机制的通用性,只要具备明确目标、可验证标准、多步骤迭代特征的任务,都可以通过 Loop 架构实现自动化。对应到智能办公室模型,就是把 Loop 机制从工程部门扩展到了研究部门,底层循环逻辑一致,只是具体的工作内容与验证标准不同。
5.5 生态分层与选型参考
四个项目分别占据了 Loop 技术栈的不同层级,团队选型时不需要追求大而全,可以根据自身的落地阶段与需求场景选择对应的工具。
表格
入门阶段可以先参考方法论项目,在单个业务场景跑通最小可用循环;需要多场景规模化落地时,再引入统一的治理框架;研发类场景可以对接成熟的技能体系,减少重复开发;垂直领域的特殊需求,可以基于现有框架定制开发专属的 Loop 应用。
六、落地关键问题:边界、避坑与设计原则
Loop Engineering 不是万能的解决方案,它有明确的适用边界与常见的失败模式。很多团队落地效果不佳,不是因为技术本身的问题,而是没有选对适用场景,或者在核心设计环节出现了偏差。
6.1 适用边界:什么样的任务值得 Loop 化
不是所有任务都适合做 Loop 化改造。四个必要条件缺一不可,否则搭建与维护的成本很容易超过自动化带来的收益。
第一是足够的重复频率,通常每周至少重复一次的任务才值得自动化,搭建成本需要靠反复运行来逐步摊平。一次性或者低频任务,手动完成的效率反而更高。第二是结果可自动验证,必须有测试、编译、规则检查这类明确的客观判断标准。如果结果好坏全靠人主观判断,那最终还是需要人每轮介入,失去了闭环的意义。第三是可承受的 token 预算,循环运行必然会存在空转与无效尝试,按量计费的模式下成本会随迭代次数上升,需要提前做好成本管控。第四是完备的工具支持,Agent 需要具备执行测试、查看日志、提交变更的完整权限与工具能力,否则循环会卡在执行环节无法推进。
很多团队会问,日常工作中零散的小任务能不能做 Loop。答案是可以先做半自动化,只封装固定的执行步骤,保留人工触发与最终验收,等跑通验证后再逐步升级为全自动化循环。
6.2 典型翻车模式
落地过程中有几类非常典型的失败模式,多数团队都会在不同阶段遇到。
第一种是无验证循环,也就是缺少独立的验证环节,执行者自己判断自己的工作是否合格。这种循环会规模化产出 “自信的错误”,运行速度越快,累积的问题越多,而且每次系统都认为自己的输出没有问题。等到人工发现问题时,往往已经积累了大量需要返工的内容。
第二种是无止尽循环,没有设置迭代次数上限与成本上限,遇到卡死的问题时会持续空转消耗资源。常见的场景是测试始终无法通过,Agent 反复修改始终找不到正确方向,没有止损机制就会一直运行下去,产生不必要的成本浪费。
第三种是无隔离循环,多个任务共享同一个工作目录,并发运行时互相覆盖代码,产生大量合并冲突。严重时还可能出现任务 A 的修改覆盖了任务 B 的成果,最终导致主分支代码混乱。
第四种是无状态循环,每次运行都从零开始,不记录历史经验与踩坑记录。同一个问题反复出现,循环每次都走相同的错误路径,永远不会从失败中学习优化。
6.3 设计 Loop 的四个核心问题
设计一个可靠的 Loop,本质上是回答四个核心问题。每个问题的答案,都会直接影响循环的可靠性与运行效率。
第一个问题,完成状态由谁判定。不能让执行者同时担任裁判,这是最基础的设计原则。判定权可以交给独立的验证 Agent,可以交给自动化测试,也可以交给人工,但绝对不能让执行任务的 Agent 自己判断是否完成。很多团队初期为了省事让 Agent 自验,最终都会遇到自我确认偏差的问题。
第二个问题,反馈信号从哪里来。高质量的反馈是循环能够持续优化的基础。反馈信号可以来自自动化测试结果,可以来自独立评审 Agent 的检查意见,也可以来自真实的用户行为数据。反馈信号越具体、越客观,循环迭代的效率就越高。模糊的反馈会导致循环在错误方向上反复尝试。
第三个问题,什么时候必须停止。所有循环都必须设置明确的止损条件,包括最大迭代次数、最大 token 预算、风险阈值。没有止损的循环不仅可能造成成本浪费,还可能在错误路径上越走越远,引发更大的问题。止损条件需要根据任务的重要程度与风险等级灵活设置。
第四个问题,记忆如何沉淀与消费。需要明确哪些信息需要持久化存储,在什么场景下会被读取,写入的信息是否经过验证,有没有提炼成可复用的规则。这三个环节任何一个断裂,记忆系统都会变成单纯的日志仓库,无法提升后续任务的效率。
6.4 记忆的递进层次
很多团队搭建记忆系统时,会简单地把保存聊天历史等同于记忆。实际上原始的对话记录只是素材,真正有效的记忆需要完成逐层递进的提炼。
一个完整的记忆回路包含五个步骤:出错并记录现象、分析出错的根本原因、验证诊断的准确性、把结论提炼成通用规则、新任务直接调用规则避免重复踩坑。能力较弱的模型通常只能停留在第一步,记忆库就是一堆错题的集合;能力较强的模型可以走完全部流程,把历史教训转化为可复用的通用规则。
搭建记忆系统时,不要追求保存所有上下文,而要关注信息的提炼质量。只有经过验证、提炼成规则的信息,才具备复用价值。
6.5 两条核心设计原则
有两条经过大量生产验证的设计原则,能够显著提升 Loop 的可靠性与收敛速度。
第一条原则:给验收清单,而非操作步骤。告诉系统需要达到的标准,而不是一步步告诉它该怎么做。模糊的标准比如 “代码质量要高” 会让整个循环无法收敛,换成可逐条检查的验收清单,比如 “核心测试全部通过、无新增静态扫描报错、符合项目代码规范”,循环才能有明确的终止判断标准。
第二条原则:实现者与验证者必须分离。模型的自我批判效果非常有限,它会天然倾向于认可自己刚完成的工作。有效的做法是启动一个独立的验证 Agent,在完全干净的上下文中对照验收标准检查产出。两个 Agent 的上下文完全隔离,甚至可以使用不同的模型,才能真正起到交叉验证的作用。
七、范式延伸:第五层技术会是什么
%20拷贝.jpg)
从 Prompt Engineering 到 Loop Engineering,AI 工程的演化有一条清晰的暗线:每一层都解决了上一层的核心局限,同时又暴露出新的结构性瓶颈。按照这个逻辑推演,Loop Engineering 也不会是最终形态,它的瓶颈之处,就是下一层范式的生长点。
7.1 当前 Loop 的三个结构性瓶颈
当前的 Loop 系统存在三个难以靠自身优化解决的结构性问题。
第一个瓶颈是 Loop 不能设计自己。所有的触发条件、流程步骤、验收标准、升级规则,都需要人来预先定义。Loop 跑得再快,它的结构本身是静态的。如果业务逻辑变化、团队规范调整,或者 Loop 自身运行中发现了更优的执行路径,它都无法完成自我重构,只能等待人来修改。
第二个瓶颈是 Loop 之间无法自然协作。一个团队内部可能同时运行代码质量循环、安全扫描循环、依赖更新循环等多套系统,它们各自独立运行,互相不知道对方的动作。代码质量循环重构了一段代码,安全扫描循环可能发现引入了新的漏洞,依赖更新循环又修改了同一个文件的版本。单个 Loop 的闭环能力再强,多个 Loop 之间的协调仍然依赖人工。
第三个瓶颈是 Loop 不会质疑目标。Loop 擅长优化 “怎么把事情做好”,但从来不会问 “这件事该不该做”。给它一个优化慢查询的目标,它就会持续优化,哪怕整个数据表本来就应该废弃。给它一个修复 Bug 的需求,它就会反复调试,哪怕修复的成本远高于重写的成本。这本质上是古德哈特定律的体现:Loop 会严格优化你给出的指标,而不是你真正想要达成的目标。
这三个瓶颈共同指向同一个方向:当前的 Loop 缺少元认知能力,也就是对自身、对同伴、对目标的反思与调整能力。
7.2 形态一:Meta-Loop 自设计的循环
针对 Loop 无法自我优化的瓶颈,第五层范式可能出现 Meta-Loop,也就是能够设计与优化循环的循环。它的核心问题从 “如何设计循环执行任务” 变成了 “谁来设计循环本身”。
当前的模式是人设计 Loop,Loop 执行任务。Meta-Loop 的模式是 Loop 观察自身运行数据,自主调整结构与规则,改进后的 Loop 继续执行任务。这不是抽象的递归概念,而是有明确实现机制的工程闭环。
具体的实现路径包含四个环节。首先是性能监控,每个 Loop 持续记录自身的运行指标,包括任务成功率、空转比例、token 消耗、人工介入频率、修复后回退率等。其次是瓶颈定位,Meta-Loop 分析这些指标,识别结构性的问题,比如 80% 的人工升级都发生在分流环节,说明分流规则需要优化。然后是结构调整,Meta-Loop 不是直接修改底层代码,而是调整 Loop 的配置与规则,比如修改触发条件、重写验收清单、增减执行步骤、调整升级阈值。最后是 AB 验证,修改后的 Loop 先以影子模式并行运行,与原 Loop 的产出做对比,确认有明确改进后再正式替换。
Meta-Loop 与普通 Loop 的核心区别在于,普通 Loop 的结构在设计时就固定了,Meta-Loop 的结构可以在运行中持续演化。这其中也存在明确的风险,Meta-Loop 如果优化 “减少人工介入次数” 这个指标,可能会把高风险操作的升级阈值调到极低,让本该人工判断的操作自动放行。因此 Meta-Loop 的验收标准比普通 Loop 更难制定,它验证的不只是任务有没有做对,更是系统有没有往正确的方向演化。
7.3 形态二:Ecosystem Engineering 多 Loop 协作生态
针对多 Loop 无法协作的瓶颈,未来会演化出 Ecosystem Engineering,也就是 Loop 之间的协作生态工程。当 Loop Engineering 全面普及后,每个团队、每个项目甚至每个开发者都会有自己的 Loop 系统,问题就从 “如何设计一个 Loop” 变成了 “如何让上百个 Loop 不互相冲突”。
这不是简单的规模扩容问题,而是系统协调机制的升级。类比经济学的概念,单个工厂内部的生产调度和管理学相关,上千个工厂之间的资源配置则和经济学相关,后者需要市场机制、价格信号、合约体系来支撑。
Ecosystem Engineering 需要三层基础设施支撑。第一层是协议层,制定 Loop 之间的通信标准。一个 Loop 完成了代码重构,不需要人工转发通知,而是通过标准化的事件总线发布状态变更,订阅的相关 Loop 自动响应处理。第二层是协商层,建立目标冲突的仲裁机制。代码质量循环要做重构,部署稳定性循环要求变更冻结,哪个优先级更高,需要通过优先级声明与仲裁规则来判断,而不是每次都靠人工协调。第三层是信任层,建立可验证的信任链路。一个 Loop 的产出被另一个 Loop 消费时,不需要默认信任对方,而是可以附带完整的验证记录、测试报告、审计日志,消费方可以独立验证产出质量。
目前 loop-engine 的 wrapTool 模式已经在这个方向迈出了第一步,它在单个 Loop 内部建立了治理与信任边界。Ecosystem Engineering 则是把这套逻辑扩展到跨 Loop、跨团队的场景。
7.4 形态三:Intent Engineering 意图的精准校准
针对 Loop 不会质疑目标的瓶颈,最深层的范式演化会走向 Intent Engineering,也就是意图工程。当执行环节被完全自动化之后,意图的准确表达就成了最稀缺的资源。
Prompt Engineering 教开发者说清楚 “做什么”,Context Engineering 教开发者给对 “看什么”,Harness Engineering 教开发者搭对 “在哪做”,Loop Engineering 教开发者设计 “怎么循环”,但所有这些的前提,都是人已经知道自己真正想要什么。现实情况是,很多时候人并没有想清楚真正的目标。以为自己要的是优化查询性能,实际上真正的需求是让用户不再抱怨页面卡顿。前者是可量化的指标,后者是真实的业务意图。指标可以被投机优化,意图不能。
Intent Engineering 要解决的不是 “如何更好地表达意图”,而是如何发现表达出的目标和真实意图之间的差距。它需要三类核心机制。第一类是意图反问,系统接收到目标后,不直接开始执行,而是反向追问目标背后的真实诉求,并给出可能的替代方案,帮助人校准自己的需求。第二类是结果回溯,任务完成后,不只报告任务完成状态,还要评估结果是否真正改善了背后的核心问题。测试全过了,但用户体验没有提升,就说明目标和真实意图之间存在偏差。第三类是意图演化,人的需求不是静态的,随着任务执行和结果反馈,人对问题的理解会不断深化,意图本身也会进化。系统需要能够跟随人的认知迭代,同步调整执行目标,而不是僵化地执行最初的指令。
这也呼应了整个技术演化的底层逻辑:每一次技术升级,本质上都是在释放人的生产力,把人从具体的执行细节中解放出来,去思考更本质的问题。Intent Engineering 就是把 “发现与校准真实目标” 这件事,也从纯人工判断变成系统辅助的工程化过程。
结论
从 Prompt Engineering 到 Loop Engineering,AI 工程经历了四次清晰的范式跃迁。表层是技术手段的不断升级,底层是人类对 AI 的控制权从具体操作向抽象规则的持续迁移。人不再需要关注每一次交互的措辞,不再需要跟进每一步任务的推进,只需要定义清楚三个核心问题:真实的目标是什么、必须遵守的规则有哪些、哪些节点需要人工决策。
Loop Engineering 不是银弹,它不会解决所有 AI 落地的问题,也不是所有场景都适用。它的核心价值是通过工程化的闭环设计,把大模型的推理能力转化为可持续、可复制、可管控的生产力。它是放大器,既能放大团队的工程能力,也会放大流程设计中的缺陷与认知偏差。
在 Loop Engineering 时代,人的价值没有被削弱,反而被提升到了更核心的位置。执行者的角色可以被自动化替代,但目标定义权、规则制定权、关键节点决策权始终掌握在人手中。技术越自动化,对人在问题理解、价值判断、风险把控上的能力要求就越高。这也是所有技术演化的共同规律:工具会接管越来越多的执行工作,而人始终要站在目标与价值的源头。
📢💻 【省心锐评】
Loop Engineering 本质是用工程化手段释放 AI 生产力,核心考验团队对业务流程的抽象能力,而非单纯的模型调优技巧。
SEO 关键词: Loop 工程、AI Agent、闭环自动化、Prompt 工程、多智能体、AI 落地
评论