Why Your “AI-First” Strategy Is Probably Wrong 来自 CREAO(25 人 Agent 平台公司)创始人 Peter Pang,记录他们怎么围绕 AI 把研发流水线拆掉重建;宝玉的评论 补了更锋利的一句——这篇表面在讲 AI,底下全是软件工程,照搬之前先看五件事能不能做到。下面先看他们做了什么,再看你能不能学。
从六周压到一天:AI-First 不是”用 AI”
上周二早 10 点上线新功能、中午跑 A/B、下午 3 点数据不好砍掉、5 点推更好的版本。三个月前同样迭代要六周。公司 25 人、10 名工程师,99% 的生产代码由 AI 写——不是装个 Copilot,是把流程整个拆了围绕 AI 重建。OpenAI 在 2026 年 2 月给这件事起了名:harness engineering(脚手架工程,harness 原意是马具,指为 AI 搭一整套约束与反馈装置)。工程团队的主活不再是写代码,而是让 Agent 把事做对。
多数公司把 AI 塞进现有流程:工程师开 Cursor、PM 用 ChatGPT、QA 用 AI 生成测试,效率涨 10%-20%,流程没变——这叫 AI-assisted。AI-First 的前提是 Agent 当主力建造者,问题从”AI 怎么帮工程师”变成”怎么重构一切、让 AI 去建,工程师只指方向做判断”。自称 AI-First 却还跑同一套 sprint、同一块 Jira、同一场站会,只是把 AI 塞进循环,没重新设计循环。另一个变体是 vibe coding——prompt 调到能跑就提交,原型行、生产撑不住。
三个会要命的瓶颈
PM 瓶颈。 PM 花几周写需求,Agent 两小时做完——几个月想、两小时做,逻辑不通。PM 要么变成”懂产品的架构师”跟上节奏,要么退出构建——设计靠”原型—发布—测试—迭代”跑出来,不靠委员会评审需求文档。
QA 瓶颈。 Agent 两小时上线,人工 QA 要三天测边界。只能用 AI 测 AI 写的代码;验证跟不上就是把旧瓶颈往下游挪十步。
人力瓶颈。 对手有 100 倍人手,25 人招聘追不上,只能靠重新设计杀出去。任一环节留给人手,整条流水线就卡死。
让 AI 看见全局:monorepo 与脚手架
旧架构散在多仓库,改一个功能要动三四个。人还能凑合,Agent 就是黑盒——看不到全貌、推理不了跨服务影响、不能在本地跑集成测试。硬合进一个 monorepo(单一代码库),理由只有一个:让 AI 看到全局。花一周设计四阶段方案,再花一周用 Agent 重构。“CREAO 是个 Agent 平台——我们用自己的 Agent 重建了运行 Agent 的平台。”
脚手架具体长这样。CloudWatch 做中枢神经——结构化日志、25+ 告警、每天自动查指标,坏了就回滚,AI 读不懂日志就诊断不了问题。GitHub Actions 六阶段流水线 验证 CI → 部署 Dev → 测试 Dev → 部署 Prod → 测试 Prod → 正式发布 全自动,每个 PR 过类型、lint、单元+集成+Playwright,没有人工绿灯;流水线确定,Agent 才能推理失败。PR 还要过 Claude Opus 4.6 三轮并行审查(质量、安全、依赖),必过;工程师在 Issue 或 PR 里 @claude 就能让它出方案、陪调试。辅助层 Statsig 管 feature flag(功能开关)撑灰度和一键关闭,Graphite 撑 stacked PR,Sentry 报异常,Linear 做人看的界面。
自愈反馈循环是灵魂。每天 UTC 09:00 Claude Sonnet 4.6 自动跑一遍健康检查,把错误摘要发到群;一小时后分诊引擎聚类 CloudWatch + Sentry 的错误,按 9 个维度打严重度,在 Linear 建带日志样本和排查方向的工单,同类去重,旧 Bug 复发就当 regression 重开。工程师修复走同一条流水线,部署完分诊回查监控,解决就自动关单。新功能入口是架构师的结构化 prompt,Bug 入口是分诊工单,两头汇进同一条流水线、同一个标准。过去 14 天日均 3-8 次生产部署,旧模式两周一次都难;以为是拿质量换速度,结果用户参与度和付费转化都在涨。反馈闭环短了,产品就好了。
新的工程组织:架构师和操作员
架构师只要一两个人。设计标准作业程序、教 AI 怎么工作、建测试支架和分诊网络、拍板架构边界、定义 Agent 眼里什么叫”好”。核心是批判性思维——挑 AI 的刺:遗漏了哪些失效模式?越过了哪些安全边界?埋了多少技术债?“我有物理学博士学位,博士期间最有用的能力是质疑假设、给论点做压力测试、找逻辑漏洞。未来,批评 AI 的能力比写代码的能力更有价值。“这也是最难招的岗位。
操作员是其他所有人。AI 给人分配任务:分诊发现 Bug、建单、给诊断、分人;人调查验证批修复,AI 提交代码,人审风险。UI 打磨、CSS、PR 评审还是人的活。一个反直觉的观察:初级工程师比资深工程师适应更快——没有老习惯要破除,工具又放大影响力;资深两个月的活 AI 一小时做完,对花几年练出稀缺技能的人是难以接受的暴击。适应力比积累的技能更重要。
CTO 花在人员管理上的时间从 60% 掉到不到 10%,从管理者退回建造者,每天 9 点写到凌晨 3 点。团队会焦虑——有人开始想”我在这个新世界里的价值在哪里”。没有完美安抚,只有一条原则:工程师写了线上 Bug 不开除他,而是改进审查、加测试、加护栏;AI 犯错也一样,建更好的验证、更清晰的约束、更强的可观测性。
只把工程 AI-First 化也不够。工程几小时发功能、市场一周才发公告,市场就成新瓶颈;产品按月规划,规划就成新瓶颈。一个部门 Agent 光速、一个人类龟速,慢的那个会拖死整条链路。
照搬之前想五件事
这套打法不是”买几个 AI 订阅”就搬得来。先对照自己问:
- 自动化测试:AI 改完能自动确认没搞崩别的吗?不够就得人工回归。
- CI/CD:提交到上线是否全自动?流水线不通,AI 写得再快也堆着等人。
- A/B 与线上监控:效果数据说话、不好能随时关,否则不知道留哪个。
- 任务管理:粒度合适、能跟生命周期;多 Agent 同时干,优先级、进度要有地方管。
- 系统架构:架构乱 AI 也头疼——上下文塞满分不清边界,改一处崩三处。
哪条补不上,AI-First 就是口号。原文着重的 monorepo 只算锦上添花——有替代方案也能跑。
什么场景适合,什么不适合
适合:后端逻辑为主、界面不复杂的产品——API 服务、数据平台、内部工具,效果跑数据就知道(CREAO 本身就是这类);以及早期产品快速试错,用户预期不高。
不适合:UI 复杂的产品——交互细节、视觉还原 AI 搞不定,否则马斯克早靠 AI 把 X 改版无数次了;质量敏感的核心产品——Anthropic 和 OpenAI 敢让 AI 全自动迭代 Claude Code 和 Codex 自身吗?安全性要求高的场景——银行、在线交易,AI 出差错不是回滚能解决的。
AI-First 的真正终点
OpenAI、Anthropic 和多个独立团队都在朝同一组原则靠拢:结构化上下文、专业化 Agent、持久化记忆、执行闭环——harness engineering 正在成行业标配。“Opus 4.5 做不到的事,Opus 4.6 已经能做到了”,下一代模型只会让变革更猛。
方向意识比工具更重要:每次决策都问一句——这件事能不能让 AI 做?不能的话缺什么条件,怎么补上? 测试、CI/CD、监控、架构、任务管理做扎实,AI 的能力才释放得出来;做不好,加再多 AI 都是在沙子上盖楼。终点未必是让 AI 干所有的活,而是借这股力把一直想做没动力做的工程改进推起来。仰望星空是好的,也还得脚踏实地。
“我们建了一个 Agent 平台,而这个平台正是我们用 Agent 建起来的。“——护城河不在工具里。现成工具谁都能用,真正的竞争优势是那股劲:下定决心重塑一切、愿意承受代价。