AI-First 底下全是软件工程

Why Your “AI-First” Strategy Is Probably Wrong 来自 CREAO（25 人 Agent 平台公司）创始人 Peter Pang，记录他们怎么围绕 AI 把研发流水线拆掉重建；宝玉的评论补了更锋利的一句——这篇表面在讲 AI，底下全是软件工程，照搬之前先看五件事能不能做到。下面先看他们做了什么，再看你能不能学。

从六周压到一天：AI-First 不是”用 AI”

上周二早 10 点上线新功能、中午跑 A/B、下午 3 点数据不好砍掉、5 点推更好的版本。三个月前同样迭代要六周。公司 25 人、10 名工程师，99% 的生产代码由 AI 写——不是装个 Copilot，是把流程整个拆了围绕 AI 重建。OpenAI 在 2026 年 2 月给这件事起了名：harness engineering（脚手架工程，harness 原意是马具，指为 AI 搭一整套约束与反馈装置）。工程团队的主活不再是写代码，而是让 Agent 把事做对。

多数公司把 AI 塞进现有流程：工程师开 Cursor、PM 用 ChatGPT、QA 用 AI 生成测试，效率涨 10%-20%，流程没变——这叫 AI-assisted。AI-First 的前提是 Agent 当主力建造者，问题从”AI 怎么帮工程师”变成”怎么重构一切、让 AI 去建，工程师只指方向做判断”。自称 AI-First 却还跑同一套 sprint、同一块 Jira、同一场站会，只是把 AI 塞进循环，没重新设计循环。另一个变体是 vibe coding——prompt 调到能跑就提交，原型行、生产撑不住。

三个会要命的瓶颈

PM 瓶颈。 PM 花几周写需求，Agent 两小时做完——几个月想、两小时做，逻辑不通。PM 要么变成”懂产品的架构师”跟上节奏，要么退出构建——设计靠”原型—发布—测试—迭代”跑出来，不靠委员会评审需求文档。

QA 瓶颈。 Agent 两小时上线，人工 QA 要三天测边界。只能用 AI 测 AI 写的代码；验证跟不上就是把旧瓶颈往下游挪十步。

人力瓶颈。 对手有 100 倍人手，25 人招聘追不上，只能靠重新设计杀出去。任一环节留给人手，整条流水线就卡死。

让 AI 看见全局：monorepo 与脚手架

旧架构散在多仓库，改一个功能要动三四个。人还能凑合，Agent 就是黑盒——看不到全貌、推理不了跨服务影响、不能在本地跑集成测试。硬合进一个 monorepo（单一代码库），理由只有一个：让 AI 看到全局。花一周设计四阶段方案，再花一周用 Agent 重构。“CREAO 是个 Agent 平台——我们用自己的 Agent 重建了运行 Agent 的平台。”

脚手架具体长这样。CloudWatch 做中枢神经——结构化日志、25+ 告警、每天自动查指标，坏了就回滚，AI 读不懂日志就诊断不了问题。GitHub Actions 六阶段流水线 验证 CI → 部署 Dev → 测试 Dev → 部署 Prod → 测试 Prod → 正式发布 全自动，每个 PR 过类型、lint、单元+集成+Playwright，没有人工绿灯；流水线确定，Agent 才能推理失败。PR 还要过 Claude Opus 4.6 三轮并行审查（质量、安全、依赖），必过；工程师在 Issue 或 PR 里 @claude 就能让它出方案、陪调试。辅助层 Statsig 管 feature flag（功能开关）撑灰度和一键关闭，Graphite 撑 stacked PR，Sentry 报异常，Linear 做人看的界面。

自愈反馈循环是灵魂。每天 UTC 09:00 Claude Sonnet 4.6 自动跑一遍健康检查，把错误摘要发到群；一小时后分诊引擎聚类 CloudWatch + Sentry 的错误，按 9 个维度打严重度，在 Linear 建带日志样本和排查方向的工单，同类去重，旧 Bug 复发就当 regression 重开。工程师修复走同一条流水线，部署完分诊回查监控，解决就自动关单。新功能入口是架构师的结构化 prompt，Bug 入口是分诊工单，两头汇进同一条流水线、同一个标准。过去 14 天日均 3-8 次生产部署，旧模式两周一次都难；以为是拿质量换速度，结果用户参与度和付费转化都在涨。反馈闭环短了，产品就好了。

新的工程组织：架构师和操作员

架构师只要一两个人。设计标准作业程序、教 AI 怎么工作、建测试支架和分诊网络、拍板架构边界、定义 Agent 眼里什么叫”好”。核心是批判性思维——挑 AI 的刺：遗漏了哪些失效模式？越过了哪些安全边界？埋了多少技术债？“我有物理学博士学位，博士期间最有用的能力是质疑假设、给论点做压力测试、找逻辑漏洞。未来，批评 AI 的能力比写代码的能力更有价值。“这也是最难招的岗位。

操作员是其他所有人。AI 给人分配任务：分诊发现 Bug、建单、给诊断、分人；人调查验证批修复，AI 提交代码，人审风险。UI 打磨、CSS、PR 评审还是人的活。一个反直觉的观察：初级工程师比资深工程师适应更快——没有老习惯要破除，工具又放大影响力；资深两个月的活 AI 一小时做完，对花几年练出稀缺技能的人是难以接受的暴击。适应力比积累的技能更重要。

CTO 花在人员管理上的时间从 60% 掉到不到 10%，从管理者退回建造者，每天 9 点写到凌晨 3 点。团队会焦虑——有人开始想”我在这个新世界里的价值在哪里”。没有完美安抚，只有一条原则：工程师写了线上 Bug 不开除他，而是改进审查、加测试、加护栏；AI 犯错也一样，建更好的验证、更清晰的约束、更强的可观测性。

只把工程 AI-First 化也不够。工程几小时发功能、市场一周才发公告，市场就成新瓶颈；产品按月规划，规划就成新瓶颈。一个部门 Agent 光速、一个人类龟速，慢的那个会拖死整条链路。

照搬之前想五件事

这套打法不是”买几个 AI 订阅”就搬得来。先对照自己问：

自动化测试：AI 改完能自动确认没搞崩别的吗？不够就得人工回归。
CI/CD：提交到上线是否全自动？流水线不通，AI 写得再快也堆着等人。
A/B 与线上监控：效果数据说话、不好能随时关，否则不知道留哪个。
任务管理：粒度合适、能跟生命周期；多 Agent 同时干，优先级、进度要有地方管。
系统架构：架构乱 AI 也头疼——上下文塞满分不清边界，改一处崩三处。

哪条补不上，AI-First 就是口号。原文着重的 monorepo 只算锦上添花——有替代方案也能跑。

什么场景适合，什么不适合

适合：后端逻辑为主、界面不复杂的产品——API 服务、数据平台、内部工具，效果跑数据就知道（CREAO 本身就是这类）；以及早期产品快速试错，用户预期不高。

不适合：UI 复杂的产品——交互细节、视觉还原 AI 搞不定，否则马斯克早靠 AI 把 X 改版无数次了；质量敏感的核心产品——Anthropic 和 OpenAI 敢让 AI 全自动迭代 Claude Code 和 Codex 自身吗？安全性要求高的场景——银行、在线交易，AI 出差错不是回滚能解决的。

AI-First 的真正终点

OpenAI、Anthropic 和多个独立团队都在朝同一组原则靠拢：结构化上下文、专业化 Agent、持久化记忆、执行闭环——harness engineering 正在成行业标配。“Opus 4.5 做不到的事，Opus 4.6 已经能做到了”，下一代模型只会让变革更猛。

方向意识比工具更重要：每次决策都问一句——这件事能不能让 AI 做？不能的话缺什么条件，怎么补上？ 测试、CI/CD、监控、架构、任务管理做扎实，AI 的能力才释放得出来；做不好，加再多 AI 都是在沙子上盖楼。终点未必是让 AI 干所有的活，而是借这股力把一直想做没动力做的工程改进推起来。仰望星空是好的，也还得脚踏实地。

“我们建了一个 Agent 平台，而这个平台正是我们用 Agent 建起来的。“——护城河不在工具里。现成工具谁都能用，真正的竞争优势是那股劲：下定决心重塑一切、愿意承受代价。