来源参考:Anthropic 2026-05-14 发布的《The founder's playbook: Building an AI-native startup》。原文把创业周期重映射为 Idea、MVP、Launch、Scale,并强调每阶段要有目标、退出标准、失败模式和 AI 辅助练习。
本框架目标:帮助创业者从创意激发开始,逐步识别垃圾想法,避免 AI 把错误原型做得更快、更像真的,并筛选出值得继续投入的高价值原型。
这是一个面向创业者的 AI-native 创意验证 cockpit:
- 输入一个 idea,先做 Idea 阶段 3-agent 审查。
- 1 个正方 agent 做基础分析建议。
- 2 个反方 agent 从需求市场和执行交付两个角度质疑,并设置门槛。
- 选择 25 类垂直 SaaS 行业范围,获取更具体的初始质疑和验证要求。
- 所有 agent 结果必须由 LLM 生成;失败时 fail-closed,不做本地伪结果。
npm install
cp .env.example .env.local填入 DeepSeek 配置:
DEEPSEEK_API_KEY=your_key_here
DEEPSEEK_BASE_URL=https://api.deepseek.com
DEEPSEEK_MODEL=deepseek-v4-flash
AGENT_API_PORT=8787启动后端和前端:
npm run backend
npm run frontend打开:
http://127.0.0.1:5173/
CLI:
# 前端 CLI:启动 Vite UI
npm run frontend
# 后端 CLI:启动 LLM agent API
npm run backend
# 全栈 CLI:同时启动后端和前端
npm start
# 构建前端
npm run build- LLM 负责判断、反驳、综合和生成假设;脚本只负责记录、校验、统计和证据整理。
- 没有用户证据,不允许进入下一阶段。
- AI 生成的原型不是验证结果,只是验证工具。
- 每个阶段都必须有退出标准、淘汰标准和证据包。
- 不允许用“看起来完成”“可运行 demo”“有人说不错”替代真实需求、留存或付费证据。
| 阶段 | 核心问题 | 主要产物 | 通过门槛 | 淘汰信号 |
|---|---|---|---|---|
| Idea | 这个问题真实且值得解决吗 | 问题假设、反证清单、目标用户画像 | 10 个目标用户证据中至少 6 个确认高频/高痛/现有替代差 | 只有创始人兴奋,用户无明确替代行为 |
| MVP | 最小产品能证明关键假设吗 | MVP 范围、风险清单、验证实验 | 用户能在无解释情况下完成核心任务,并愿意再次使用/付费/预约 | Demo 好看但没有行为证据 |
| Launch | 早期市场反馈是真需求还是噪声 | 发布计划、渠道实验、指标仪表盘 | 激活、复访、转化中至少两项达到预设阈值 | 只有曝光、点赞、注册,无激活和留存 |
| Scale | 该放大什么,不能放大什么 | 增长系统、运营 agent 工作流、风控门禁 | 单位经济、交付质量、支持成本稳定 | 增长依赖人工补洞或质量不可控 |
LLM 驱动任务:
- 发散 20 个问题假设,不直接生成产品方案。
- 为每个假设生成反方观点:为什么这可能是伪问题、低频问题、付费弱问题。
- 提炼用户访谈问题,禁止诱导式提问。
- 对访谈记录做证据归类:痛点、频率、现有替代方案、预算、紧迫度。
硬门禁:
- 至少 10 条目标用户原始反馈。
- 每条反馈必须包含:用户角色、场景、现有替代方案、痛苦成本、是否主动寻找过解决方案。
- 未出现明确替代行为的想法,默认降级为低优先级。
垃圾识别规则:
- 用户说“挺有意思”,但没有当前解决方案。
- 问题只在创始人脑中高频。
- AI 能讲出宏大市场,但找不到具体使用场景。
- 竞品不存在不是好信号,可能是需求不存在。
LLM 驱动任务:
- 把产品范围压缩到一个关键行为:用户必须完成什么动作,才算需求成立。
- 生成 3 个 MVP 方案:人工服务型、无代码型、代码型。
- 识别 AI 可能放大的错误:过度自动化、过度设计、功能堆叠、假交互。
- 设计验证实验,而不是完整产品路线图。
硬门禁:
- MVP 只验证一个核心假设。
- 必须定义失败条件,例如:5 个用户中少于 2 个愿意复用,或没有任何人愿意留下预算/排期承诺。
- 必须保存用户实际操作证据:录屏、日志、访谈摘要或支付/预约记录。
防止 AI 放大错误原型:
- 禁止先做全量产品,再回头找验证理由。
- 禁止用模拟用户、虚构反馈、LLM 自评替代真实用户。
- 禁止把“功能完成度”当作“需求验证”。
LLM 驱动任务:
- 为不同渠道生成发布叙事,但必须绑定同一核心承诺。
- 分析早期反馈,区分好奇流量、礼貌性支持、真实需求。
- 每周生成“继续/收缩/转向”建议,并引用证据。
硬门禁:
- 发布前定义北极星指标和 3 个反作弊指标。
- 不允许只看注册量、浏览量、点赞量。
- 必须跟踪激活率、D7 留存、复访、付费意向或实际付费。
有价值原型信号:
- 用户主动追问下一步。
- 用户愿意导入真实数据或改变现有流程。
- 用户在没有创始人提醒时复用。
- 用户愿意付费、预约、转介绍或承担迁移成本。
LLM 驱动任务:
- 找出增长中最容易被 AI 放大的质量风险。
- 设计 agentic workflow:销售跟进、客户支持、反馈归因、产品迭代建议。
- 对运营工作流做失败复盘,发现伪自动化和伪成功态。
硬门禁:
- 单位经济为正或有明确改善路径。
- 交付质量可测量。
- 支持成本没有随用户线性爆炸。
- agent 工作流必须有失败状态和人工审批点。
不可放大信号:
- 每个客户都要创始人手工救火。
- AI 输出需要大量人工改写才可用。
- 增长来自一次性噪声渠道。
- 核心价值依赖不可控模型幻觉。
| 结果 | 处理 |
|---|---|
| 高痛点 + 高频 + 有替代行为 + 有预算 | 进入 MVP |
| 高痛点 + 低频 + 高预算 | 做服务型 MVP,不急于产品化 |
| 低痛点 + 高频 + 无预算 | 暂停,除非有强分发优势 |
| 只有 AI 能讲清价值,用户讲不清 | 淘汰 |
| Demo 受欢迎但无人复用 | 回到 Idea 重查问题 |
| 有复用但无付费 | 重查 ICP、定价和工作流嵌入点 |
- 本周新增了哪些真实用户证据?
- 哪个假设被证伪了?
- 哪个功能只是 AI 做起来容易,但不增强验证?
- 有没有把曝光、注册、称赞误判为 PMF?
- 下一步最小实验是什么,失败条件是什么?
specs/role_spec.md:LLM-backed agent 角色边界。specs/execution_spec.md:四阶段执行和门禁规范。specs/output_spec.md:每阶段输出物和证据包规范。specs/startup_validation.specx.json:SpecX 合约,用于约束执行、证据和失败语义。saas.md:垂直 SaaS 行业和典型服务提示库,前端会直接解析它作为用户可选范围,并传入 LLM 上下文。
25 Vertical SaaS Industries:可视化展示saas.md的 25 类垂直 SaaS。点击任一行业会调用 LLM-backed Skeptic Agent,生成初始质疑、Idea Gate 门槛、必需证据、淘汰信号和 AI 原型陷阱。SaaS Scope Prompts:选择行业和具体服务项,把候选方向写入创意输入,并同步传入后续 agent 追问上下文。