AGI pilled 的恰当剂量：为当下的模型做产品

Anthropic Claude Code 和 Cowork 的产品负责人 Cat Wu 在 How to build AGI-pilled products 播客访谈里谈了三件事：团队怎么把功能交付从半年压到一天，PM 角色为什么在融合，以及做 AI 原生产品最难的不是想象 AGI 的样子、而是为当下模型榨出最大价值。宝玉的配套博客补了一圈行业背景——源码泄露的技术细节、OpenClaw 封堵的时间线、Mythos 早期曝光经过，和一段独立的编辑手记。

从半年路线图到一周发布

AI 之前代码贵，PM 核心工作是跨团队对齐多季度路线图。Cat 面试上百名候选人后发现多数人还活在旧世界。现在模型每几个月跳一档，交付周期从 6 个月压到 1 周甚至 1 天；PM 要把精力从”跨团队对齐”切到”最快把东西推出去”，并钉住哪些任务必须开箱即用。

怎么做到一天一个功能？三件事。清晰目标：LLM 太通用，用户、问题、场景容易糊掉，好的 PM 会钉死——比如”核心用户是企业开发者，解决权限弹窗疲劳，目标零弹窗”，方案自然收敛。research preview：几乎所有功能以研究预览上线，明说是早期，一两周就能推。evergreen launch room：Slack 频道，工程师跑通就丢进去，文档、PMM、开发者关系直接接手，次日出对外宣传——发布零摩擦，这就是 PM 该搭的流水线。

PRD 没死但变形：每周严格的 metrics readout、一份 team principles 列出核心用户和取舍原则，替掉大部分 PRD；特别模糊的功能或重度基础设施项目才写一页纸。

最难的技能：恰当剂量的 AGI pilled

Cat 最锋利的一句是：

做到恰好正确程度的 AGI pilled 非常难。

AGI pilled 脱胎于 red pilled（《黑客帝国》的红药丸），指”敢为更强模型设计产品”的态度，也带一层脱离现实的警告。终极未来谁都看得见——模型极聪明、一个输入框就够。为终极版本做产品反而最容易，难的是看清当下模型边界、在边界里榨出最大价值、把用户引上”黄金路径”、用产品补短板。太 AGI pilled 会忽略当下痛点，太保守下次升级又措手不及。

Cat 30% 的时间故意把 Cowork 推到极限、和模型对话、搞清楚它为什么犯错。三条方法论可以抄：让模型反思自己的行为——看到模型做出乎意料的事（比如改前端却没 UI 验证），直接问它为什么，它常会承认”系统提示有歧义""委托给 subagent 却没检查”，这些答案直接告诉你怎么修 harness；找到你信任的五个人——每个团队都有几个人擅长精确描述模型问题，从他们那里拿反馈比普查更有效；写 10 条好 eval——10 条高质量 eval 就够团队量化目标和进展，很多 PM 低估这件事。

两起事故的完整背景

Claude Code 源码泄露。3 月底完整源码经 npm 包泄露。Cat 定性为人为错误——有人用 Claude 写包发布流程的 PR，两层人工审查仍漏过；当事人还留在 Anthropic，定论是流程失败、重点加固防护。技术根因：Claude Code 用 Bun 构建，Bun 默认生成 source map，而 .npmignore 漏掉 *.map——59.8 MB 的 source map 发到公共 npm，暴露 51.2 万行 TypeScript、44 个未公开 feature flag，还有叫 KAIROS 的自主后台 Agent：能在用户空闲时替 Claude 做”记忆整理”的未发布功能。这是 13 个月内第二次代码泄露，距 Mythos 信息因 CMS 错配曝光仅 5 天。

OpenClaw 封堵。官方解释是容量管理：Claude 需求量大，订阅计划没按第三方工具设计，跑全天 Agent 的订阅用户消耗不成比例的算力，只能优先保障自有产品和 API，给每位用户附赠一点额度过渡。经济账说得通：一个 $200/月的 Max 用户用 OpenClaw 跑全天 Agent，可能烧掉 $1,000-5,000 的 API 成本。但时间线值得玩味——OpenClaw（奥地利开发者 Peter Steinberger 的开源 Agent 框架，GitHub 24.7 万星）2 月被要求改名，2 月 14 日 Steinberger 加入 OpenAI，2 月 20 日更新条款，3 月底 Cowork 上线和 OpenClaw 高度重合的 Claude Dispatch，4 月 4 日封堵生效，用户通知不到 24 小时。Steinberger 公开批评”先复制功能再把开源锁在门外”，Cat 没正面回应。

角色融合：工程背景暂时特别值钱

PM 未来还需要吗？角色都在融合：PM 写代码，工程师做产品决策，设计师既做 PM 又提交代码。两条路：多招有产品品味的工程师，或多招 PM 引导。Anthropic 选了前者。很多工程师能独立完成”Twitter 看到反馈 → 周末发布功能”的全流程，几乎不需要 PM。Cat 自己工程师出身（Scale AI 产品工程师、Dagster Labs 工程经理、Index Ventures 做过短暂风投），几乎所有 PM 要么做过工程师、要么直接在 Claude Code 代码库提交代码，设计师也都做过前端。

当代码越来越便宜，真正变得有价值的是决定写什么。

工程背景”接下来几个月”特别值钱——有工程直觉能判断一件事多难：简单的一小时做掉，复杂的提前知道成本好排优先级。但只因模型每跳一档都会重排技能价值，六个月后预测不了。最核心的始终是 product taste，稀缺到谁能展示出来团队基本都会录用。Lenny 追问人脑还剩什么，Cat 指向常识和情商：一次发布上千个环节，判断谁是关键利益相关方、偏好是什么、用什么场合沟通——这种隐性判断仍归人。

从单任务到 Agent 矩阵

Cat 用 building blocks 描述产品愿景的堆叠。核心单元是单任务成功率——一个清晰 prompt 能不能持续产出可用结果。模型变强后用户自然开始并行多任务，2025 年底 multi-coding 流行，外推下去是同时跑 50 个甚至上百个 Claude。这条路线要连带解决几件事：本机装不下要搬远端，人需要新管理界面判断该关注哪个任务，Agent 要自我验证让人一眼能信，流程要自我改进、反馈过的错误不再重犯。

给听众的职业建议

Cat 给两条建议。一是反复做的手动任务交给 Claude Code、Cowork，省下时间做一直没精力碰的长尾项目。第二条更反直觉：把自动化从 95% 推到 100%。很多人做到 90-95% 就放弃，但不是 100% 可靠的自动化根本不算自动化，最后 5-10% 才最费时间。Cat 训 Cowork 做 Gmail 清零一直没到位；Lenny 马上对号入座——他有个把垃圾邮件分到 spammy 的自动化，偶尔漏真邮件，仍要全量检查，等于没省时间。另一面是别掉进过度定制：一极从不写自动化，另一极狂加 MCP、skill、workflow，把工具玩得飞起却忘了要交付的产品。

其实简单配置往往更好用。

编辑手记：三个值得关注的矛盾

速度文化与安全承诺的缝隙。Cat 反复讲”一天一个功能""降低发布承诺""让工程师自主发布”，而 Anthropic 把”安全”写在名片上。一周内两次外泄（Mythos CMS 错配 + 源码 source map），Cat 都解释为”人为失误、已加防护”，没反思速度文化本身是否在加剧风险。

开放生态与围墙花园的取舍。OpenClaw 封堵在经济上成立，但时间线巧合难忽略——Cowork 推出类似功能后才封堵第三方订阅。Boris Cherny 一边说”我们是开源的大粉丝”、一边给 OpenClaw 提过性能 PR，姿态和政策的温度差比政策本身更值得玩味。

PM 角色悖论。Cat 说角色在融合，但她自己给出的最高效模式是工程师端到端完成全流程、“几乎不需要 PM”。PM 的价值在哪？答案是 product taste，可整场对话里始终停留在抽象层。AGI pilled 又藏着更深的悖论——模型若够强，一个文本框就够，她的产品工作本就是过渡。一个产品负责人承认工作有保质期，不常见。