Skip to content
Synapse
Go back

AGI pilled 的恰当剂量:为当下的模型做产品

2193 字 · 6 分钟

Anthropic Claude Code 和 Cowork 的产品负责人 Cat Wu 在 How to build AGI-pilled products 播客访谈里谈了三件事:团队怎么把功能交付从半年压到一天,PM 角色为什么在融合,以及做 AI 原生产品最难的不是想象 AGI 的样子、而是为当下模型榨出最大价值。宝玉的 配套博客 补了一圈行业背景——源码泄露的技术细节、OpenClaw 封堵的时间线、Mythos 早期曝光经过,和一段独立的编辑手记。

从半年路线图到一周发布

AI 之前代码贵,PM 核心工作是跨团队对齐多季度路线图。Cat 面试上百名候选人后发现多数人还活在旧世界。现在模型每几个月跳一档,交付周期从 6 个月压到 1 周甚至 1 天;PM 要把精力从”跨团队对齐”切到”最快把东西推出去”,并钉住哪些任务必须开箱即用。

怎么做到一天一个功能?三件事。清晰目标:LLM 太通用,用户、问题、场景容易糊掉,好的 PM 会钉死——比如”核心用户是企业开发者,解决权限弹窗疲劳,目标零弹窗”,方案自然收敛。research preview:几乎所有功能以研究预览上线,明说是早期,一两周就能推。evergreen launch room:Slack 频道,工程师跑通就丢进去,文档、PMM、开发者关系直接接手,次日出对外宣传——发布零摩擦,这就是 PM 该搭的流水线。

PRD 没死但变形:每周严格的 metrics readout、一份 team principles 列出核心用户和取舍原则,替掉大部分 PRD;特别模糊的功能或重度基础设施项目才写一页纸。

最难的技能:恰当剂量的 AGI pilled

Cat 最锋利的一句是:

做到恰好正确程度的 AGI pilled 非常难。

AGI pilled 脱胎于 red pilled(《黑客帝国》的红药丸),指”敢为更强模型设计产品”的态度,也带一层脱离现实的警告。终极未来谁都看得见——模型极聪明、一个输入框就够。为终极版本做产品反而最容易,难的是看清当下模型边界、在边界里榨出最大价值、把用户引上”黄金路径”、用产品补短板。太 AGI pilled 会忽略当下痛点,太保守下次升级又措手不及。

Cat 30% 的时间故意把 Cowork 推到极限、和模型对话、搞清楚它为什么犯错。三条方法论可以抄:让模型反思自己的行为——看到模型做出乎意料的事(比如改前端却没 UI 验证),直接问它为什么,它常会承认”系统提示有歧义""委托给 subagent 却没检查”,这些答案直接告诉你怎么修 harness;找到你信任的五个人——每个团队都有几个人擅长精确描述模型问题,从他们那里拿反馈比普查更有效;写 10 条好 eval——10 条高质量 eval 就够团队量化目标和进展,很多 PM 低估这件事。

两起事故的完整背景

Claude Code 源码泄露。3 月底完整源码经 npm 包泄露。Cat 定性为人为错误——有人用 Claude 写包发布流程的 PR,两层人工审查仍漏过;当事人还留在 Anthropic,定论是流程失败、重点加固防护。技术根因:Claude Code 用 Bun 构建,Bun 默认生成 source map,而 .npmignore 漏掉 *.map——59.8 MB 的 source map 发到公共 npm,暴露 51.2 万行 TypeScript、44 个未公开 feature flag,还有叫 KAIROS 的自主后台 Agent:能在用户空闲时替 Claude 做”记忆整理”的未发布功能。这是 13 个月内第二次代码泄露,距 Mythos 信息因 CMS 错配曝光仅 5 天。

OpenClaw 封堵。官方解释是容量管理:Claude 需求量大,订阅计划没按第三方工具设计,跑全天 Agent 的订阅用户消耗不成比例的算力,只能优先保障自有产品和 API,给每位用户附赠一点额度过渡。经济账说得通:一个 $200/月的 Max 用户用 OpenClaw 跑全天 Agent,可能烧掉 $1,000-5,000 的 API 成本。但时间线值得玩味——OpenClaw(奥地利开发者 Peter Steinberger 的开源 Agent 框架,GitHub 24.7 万星)2 月被要求改名,2 月 14 日 Steinberger 加入 OpenAI,2 月 20 日更新条款,3 月底 Cowork 上线和 OpenClaw 高度重合的 Claude Dispatch,4 月 4 日封堵生效,用户通知不到 24 小时。Steinberger 公开批评”先复制功能再把开源锁在门外”,Cat 没正面回应。

角色融合:工程背景暂时特别值钱

PM 未来还需要吗?角色都在融合:PM 写代码,工程师做产品决策,设计师既做 PM 又提交代码。两条路:多招有产品品味的工程师,或多招 PM 引导。Anthropic 选了前者。很多工程师能独立完成”Twitter 看到反馈 → 周末发布功能”的全流程,几乎不需要 PM。Cat 自己工程师出身(Scale AI 产品工程师、Dagster Labs 工程经理、Index Ventures 做过短暂风投),几乎所有 PM 要么做过工程师、要么直接在 Claude Code 代码库提交代码,设计师也都做过前端。

当代码越来越便宜,真正变得有价值的是决定写什么。

工程背景”接下来几个月”特别值钱——有工程直觉能判断一件事多难:简单的一小时做掉,复杂的提前知道成本好排优先级。但只因模型每跳一档都会重排技能价值,六个月后预测不了。最核心的始终是 product taste,稀缺到谁能展示出来团队基本都会录用。Lenny 追问人脑还剩什么,Cat 指向常识和情商:一次发布上千个环节,判断谁是关键利益相关方、偏好是什么、用什么场合沟通——这种隐性判断仍归人。

从单任务到 Agent 矩阵

Cat 用 building blocks 描述产品愿景的堆叠。核心单元是单任务成功率——一个清晰 prompt 能不能持续产出可用结果。模型变强后用户自然开始并行多任务,2025 年底 multi-coding 流行,外推下去是同时跑 50 个甚至上百个 Claude。这条路线要连带解决几件事:本机装不下要搬远端,人需要新管理界面判断该关注哪个任务,Agent 要自我验证让人一眼能信,流程要自我改进、反馈过的错误不再重犯。

给听众的职业建议

Cat 给两条建议。一是反复做的手动任务交给 Claude Code、Cowork,省下时间做一直没精力碰的长尾项目。第二条更反直觉:把自动化从 95% 推到 100%。很多人做到 90-95% 就放弃,但不是 100% 可靠的自动化根本不算自动化,最后 5-10% 才最费时间。Cat 训 Cowork 做 Gmail 清零一直没到位;Lenny 马上对号入座——他有个把垃圾邮件分到 spammy 的自动化,偶尔漏真邮件,仍要全量检查,等于没省时间。另一面是别掉进过度定制:一极从不写自动化,另一极狂加 MCP、skill、workflow,把工具玩得飞起却忘了要交付的产品。

其实简单配置往往更好用。

编辑手记:三个值得关注的矛盾

速度文化与安全承诺的缝隙。Cat 反复讲”一天一个功能""降低发布承诺""让工程师自主发布”,而 Anthropic 把”安全”写在名片上。一周内两次外泄(Mythos CMS 错配 + 源码 source map),Cat 都解释为”人为失误、已加防护”,没反思速度文化本身是否在加剧风险。

开放生态与围墙花园的取舍。OpenClaw 封堵在经济上成立,但时间线巧合难忽略——Cowork 推出类似功能后才封堵第三方订阅。Boris Cherny 一边说”我们是开源的大粉丝”、一边给 OpenClaw 提过性能 PR,姿态和政策的温度差比政策本身更值得玩味。

PM 角色悖论。Cat 说角色在融合,但她自己给出的最高效模式是工程师端到端完成全流程、“几乎不需要 PM”。PM 的价值在哪?答案是 product taste,可整场对话里始终停留在抽象层。AGI pilled 又藏着更深的悖论——模型若够强,一个文本框就够,她的产品工作本就是过渡。一个产品负责人承认工作有保质期,不常见。



相关内容

下一篇
AI-First 底下全是软件工程