AI-Native 创业验证框架

来源参考：Anthropic 2026-05-14 发布的《The founder's playbook: Building an AI-native startup》。原文把创业周期重映射为 Idea、MVP、Launch、Scale，并强调每阶段要有目标、退出标准、失败模式和 AI 辅助练习。

本框架目标：帮助创业者从创意激发开始，逐步识别垃圾想法，避免 AI 把错误原型做得更快、更像真的，并筛选出值得继续投入的高价值原型。

产品定位

这是一个面向创业者的 AI-native 创意验证 cockpit：

输入一个 idea，先做 Idea 阶段 3-agent 审查。
1 个正方 agent 做基础分析建议。
2 个反方 agent 从需求市场和执行交付两个角度质疑，并设置门槛。
选择 25 类垂直 SaaS 行业范围，获取更具体的初始质疑和验证要求。
所有 agent 结果必须由 LLM 生成；失败时 fail-closed，不做本地伪结果。

快速开始

npm install
cp .env.example .env.local

填入 DeepSeek 配置：

DEEPSEEK_API_KEY=your_key_here
DEEPSEEK_BASE_URL=https://api.deepseek.com
DEEPSEEK_MODEL=deepseek-v4-flash
AGENT_API_PORT=8787

启动后端和前端：

npm run backend
npm run frontend

打开：

http://127.0.0.1:5173/

CLI：

# 前端 CLI：启动 Vite UI
npm run frontend

# 后端 CLI：启动 LLM agent API
npm run backend

# 全栈 CLI：同时启动后端和前端
npm start

# 构建前端
npm run build

核心原则

LLM 负责判断、反驳、综合和生成假设；脚本只负责记录、校验、统计和证据整理。
没有用户证据，不允许进入下一阶段。
AI 生成的原型不是验证结果，只是验证工具。
每个阶段都必须有退出标准、淘汰标准和证据包。
不允许用“看起来完成”“可运行 demo”“有人说不错”替代真实需求、留存或付费证据。

阶段总览

阶段	核心问题	主要产物	通过门槛	淘汰信号
Idea	这个问题真实且值得解决吗	问题假设、反证清单、目标用户画像	10 个目标用户证据中至少 6 个确认高频/高痛/现有替代差	只有创始人兴奋，用户无明确替代行为
MVP	最小产品能证明关键假设吗	MVP 范围、风险清单、验证实验	用户能在无解释情况下完成核心任务，并愿意再次使用/付费/预约	Demo 好看但没有行为证据
Launch	早期市场反馈是真需求还是噪声	发布计划、渠道实验、指标仪表盘	激活、复访、转化中至少两项达到预设阈值	只有曝光、点赞、注册，无激活和留存
Scale	该放大什么，不能放大什么	增长系统、运营 agent 工作流、风控门禁	单位经济、交付质量、支持成本稳定	增长依赖人工补洞或质量不可控

工作流

1. Idea：从创意到问题证据

LLM 驱动任务：

发散 20 个问题假设，不直接生成产品方案。
为每个假设生成反方观点：为什么这可能是伪问题、低频问题、付费弱问题。
提炼用户访谈问题，禁止诱导式提问。
对访谈记录做证据归类：痛点、频率、现有替代方案、预算、紧迫度。

硬门禁：

至少 10 条目标用户原始反馈。
每条反馈必须包含：用户角色、场景、现有替代方案、痛苦成本、是否主动寻找过解决方案。
未出现明确替代行为的想法，默认降级为低优先级。

垃圾识别规则：

用户说“挺有意思”，但没有当前解决方案。
问题只在创始人脑中高频。
AI 能讲出宏大市场，但找不到具体使用场景。
竞品不存在不是好信号，可能是需求不存在。

2. MVP：从问题证据到最小验证产品

LLM 驱动任务：

把产品范围压缩到一个关键行为：用户必须完成什么动作，才算需求成立。
生成 3 个 MVP 方案：人工服务型、无代码型、代码型。
识别 AI 可能放大的错误：过度自动化、过度设计、功能堆叠、假交互。
设计验证实验，而不是完整产品路线图。

硬门禁：

MVP 只验证一个核心假设。
必须定义失败条件，例如：5 个用户中少于 2 个愿意复用，或没有任何人愿意留下预算/排期承诺。
必须保存用户实际操作证据：录屏、日志、访谈摘要或支付/预约记录。

防止 AI 放大错误原型：

禁止先做全量产品，再回头找验证理由。
禁止用模拟用户、虚构反馈、LLM 自评替代真实用户。
禁止把“功能完成度”当作“需求验证”。

3. Launch：从小样本验证到公开市场信号

LLM 驱动任务：

为不同渠道生成发布叙事，但必须绑定同一核心承诺。
分析早期反馈，区分好奇流量、礼貌性支持、真实需求。
每周生成“继续/收缩/转向”建议，并引用证据。

硬门禁：

发布前定义北极星指标和 3 个反作弊指标。
不允许只看注册量、浏览量、点赞量。
必须跟踪激活率、D7 留存、复访、付费意向或实际付费。

有价值原型信号：

用户主动追问下一步。
用户愿意导入真实数据或改变现有流程。
用户在没有创始人提醒时复用。
用户愿意付费、预约、转介绍或承担迁移成本。

4. Scale：从验证到可复制系统

LLM 驱动任务：

找出增长中最容易被 AI 放大的质量风险。
设计 agentic workflow：销售跟进、客户支持、反馈归因、产品迭代建议。
对运营工作流做失败复盘，发现伪自动化和伪成功态。

硬门禁：

单位经济为正或有明确改善路径。
交付质量可测量。
支持成本没有随用户线性爆炸。
agent 工作流必须有失败状态和人工审批点。

不可放大信号：

每个客户都要创始人手工救火。
AI 输出需要大量人工改写才可用。
增长来自一次性噪声渠道。
核心价值依赖不可控模型幻觉。

决策矩阵

结果	处理
高痛点 + 高频 + 有替代行为 + 有预算	进入 MVP
高痛点 + 低频 + 高预算	做服务型 MVP，不急于产品化
低痛点 + 高频 + 无预算	暂停，除非有强分发优势
只有 AI 能讲清价值，用户讲不清	淘汰
Demo 受欢迎但无人复用	回到 Idea 重查问题
有复用但无付费	重查 ICP、定价和工作流嵌入点

每周评审问题

本周新增了哪些真实用户证据？
哪个假设被证伪了？
哪个功能只是 AI 做起来容易，但不增强验证？
有没有把曝光、注册、称赞误判为 PMF？
下一步最小实验是什么，失败条件是什么？

文件说明

specs/role_spec.md：LLM-backed agent 角色边界。
specs/execution_spec.md：四阶段执行和门禁规范。
specs/output_spec.md：每阶段输出物和证据包规范。
specs/startup_validation.specx.json：SpecX 合约，用于约束执行、证据和失败语义。
saas.md：垂直 SaaS 行业和典型服务提示库，前端会直接解析它作为用户可选范围，并传入 LLM 上下文。

前端交互

25 Vertical SaaS Industries：可视化展示 saas.md 的 25 类垂直 SaaS。点击任一行业会调用 LLM-backed Skeptic Agent，生成初始质疑、Idea Gate 门槛、必需证据、淘汰信号和 AI 原型陷阱。
SaaS Scope Prompts：选择行业和具体服务项，把候选方向写入创意输入，并同步传入后续 agent 追问上下文。

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
public		public
specs		specs
src		src
.env.example		.env.example
.gitignore		.gitignore
README.md		README.md
index.html		index.html
package-lock.json		package-lock.json
package.json		package.json
saas.md		saas.md
server.mjs		server.mjs
vite.config.js		vite.config.js

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

AI-Native 创业验证框架

产品定位

快速开始

核心原则

阶段总览

工作流

1. Idea：从创意到问题证据

2. MVP：从问题证据到最小验证产品

3. Launch：从小样本验证到公开市场信号

4. Scale：从验证到可复制系统

决策矩阵

每周评审问题

文件说明

前端交互

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

AI-Native 创业验证框架

产品定位

快速开始

核心原则

阶段总览

工作流

1. Idea：从创意到问题证据

2. MVP：从问题证据到最小验证产品

3. Launch：从小样本验证到公开市场信号

4. Scale：从验证到可复制系统

决策矩阵

每周评审问题

文件说明

前端交互

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages