Skip to content

EvanAI0331/aiagent

Repository files navigation

AI-Native 创业验证框架

来源参考:Anthropic 2026-05-14 发布的《The founder's playbook: Building an AI-native startup》。原文把创业周期重映射为 Idea、MVP、Launch、Scale,并强调每阶段要有目标、退出标准、失败模式和 AI 辅助练习。

本框架目标:帮助创业者从创意激发开始,逐步识别垃圾想法,避免 AI 把错误原型做得更快、更像真的,并筛选出值得继续投入的高价值原型。

产品定位

这是一个面向创业者的 AI-native 创意验证 cockpit:

  • 输入一个 idea,先做 Idea 阶段 3-agent 审查。
  • 1 个正方 agent 做基础分析建议。
  • 2 个反方 agent 从需求市场和执行交付两个角度质疑,并设置门槛。
  • 选择 25 类垂直 SaaS 行业范围,获取更具体的初始质疑和验证要求。
  • 所有 agent 结果必须由 LLM 生成;失败时 fail-closed,不做本地伪结果。

快速开始

npm install
cp .env.example .env.local

填入 DeepSeek 配置:

DEEPSEEK_API_KEY=your_key_here
DEEPSEEK_BASE_URL=https://api.deepseek.com
DEEPSEEK_MODEL=deepseek-v4-flash
AGENT_API_PORT=8787

启动后端和前端:

npm run backend
npm run frontend

打开:

http://127.0.0.1:5173/

CLI:

# 前端 CLI:启动 Vite UI
npm run frontend

# 后端 CLI:启动 LLM agent API
npm run backend

# 全栈 CLI:同时启动后端和前端
npm start

# 构建前端
npm run build

核心原则

  1. LLM 负责判断、反驳、综合和生成假设;脚本只负责记录、校验、统计和证据整理。
  2. 没有用户证据,不允许进入下一阶段。
  3. AI 生成的原型不是验证结果,只是验证工具。
  4. 每个阶段都必须有退出标准、淘汰标准和证据包。
  5. 不允许用“看起来完成”“可运行 demo”“有人说不错”替代真实需求、留存或付费证据。

阶段总览

阶段 核心问题 主要产物 通过门槛 淘汰信号
Idea 这个问题真实且值得解决吗 问题假设、反证清单、目标用户画像 10 个目标用户证据中至少 6 个确认高频/高痛/现有替代差 只有创始人兴奋,用户无明确替代行为
MVP 最小产品能证明关键假设吗 MVP 范围、风险清单、验证实验 用户能在无解释情况下完成核心任务,并愿意再次使用/付费/预约 Demo 好看但没有行为证据
Launch 早期市场反馈是真需求还是噪声 发布计划、渠道实验、指标仪表盘 激活、复访、转化中至少两项达到预设阈值 只有曝光、点赞、注册,无激活和留存
Scale 该放大什么,不能放大什么 增长系统、运营 agent 工作流、风控门禁 单位经济、交付质量、支持成本稳定 增长依赖人工补洞或质量不可控

工作流

1. Idea:从创意到问题证据

LLM 驱动任务:

  • 发散 20 个问题假设,不直接生成产品方案。
  • 为每个假设生成反方观点:为什么这可能是伪问题、低频问题、付费弱问题。
  • 提炼用户访谈问题,禁止诱导式提问。
  • 对访谈记录做证据归类:痛点、频率、现有替代方案、预算、紧迫度。

硬门禁:

  • 至少 10 条目标用户原始反馈。
  • 每条反馈必须包含:用户角色、场景、现有替代方案、痛苦成本、是否主动寻找过解决方案。
  • 未出现明确替代行为的想法,默认降级为低优先级。

垃圾识别规则:

  • 用户说“挺有意思”,但没有当前解决方案。
  • 问题只在创始人脑中高频。
  • AI 能讲出宏大市场,但找不到具体使用场景。
  • 竞品不存在不是好信号,可能是需求不存在。

2. MVP:从问题证据到最小验证产品

LLM 驱动任务:

  • 把产品范围压缩到一个关键行为:用户必须完成什么动作,才算需求成立。
  • 生成 3 个 MVP 方案:人工服务型、无代码型、代码型。
  • 识别 AI 可能放大的错误:过度自动化、过度设计、功能堆叠、假交互。
  • 设计验证实验,而不是完整产品路线图。

硬门禁:

  • MVP 只验证一个核心假设。
  • 必须定义失败条件,例如:5 个用户中少于 2 个愿意复用,或没有任何人愿意留下预算/排期承诺。
  • 必须保存用户实际操作证据:录屏、日志、访谈摘要或支付/预约记录。

防止 AI 放大错误原型:

  • 禁止先做全量产品,再回头找验证理由。
  • 禁止用模拟用户、虚构反馈、LLM 自评替代真实用户。
  • 禁止把“功能完成度”当作“需求验证”。

3. Launch:从小样本验证到公开市场信号

LLM 驱动任务:

  • 为不同渠道生成发布叙事,但必须绑定同一核心承诺。
  • 分析早期反馈,区分好奇流量、礼貌性支持、真实需求。
  • 每周生成“继续/收缩/转向”建议,并引用证据。

硬门禁:

  • 发布前定义北极星指标和 3 个反作弊指标。
  • 不允许只看注册量、浏览量、点赞量。
  • 必须跟踪激活率、D7 留存、复访、付费意向或实际付费。

有价值原型信号:

  • 用户主动追问下一步。
  • 用户愿意导入真实数据或改变现有流程。
  • 用户在没有创始人提醒时复用。
  • 用户愿意付费、预约、转介绍或承担迁移成本。

4. Scale:从验证到可复制系统

LLM 驱动任务:

  • 找出增长中最容易被 AI 放大的质量风险。
  • 设计 agentic workflow:销售跟进、客户支持、反馈归因、产品迭代建议。
  • 对运营工作流做失败复盘,发现伪自动化和伪成功态。

硬门禁:

  • 单位经济为正或有明确改善路径。
  • 交付质量可测量。
  • 支持成本没有随用户线性爆炸。
  • agent 工作流必须有失败状态和人工审批点。

不可放大信号:

  • 每个客户都要创始人手工救火。
  • AI 输出需要大量人工改写才可用。
  • 增长来自一次性噪声渠道。
  • 核心价值依赖不可控模型幻觉。

决策矩阵

结果 处理
高痛点 + 高频 + 有替代行为 + 有预算 进入 MVP
高痛点 + 低频 + 高预算 做服务型 MVP,不急于产品化
低痛点 + 高频 + 无预算 暂停,除非有强分发优势
只有 AI 能讲清价值,用户讲不清 淘汰
Demo 受欢迎但无人复用 回到 Idea 重查问题
有复用但无付费 重查 ICP、定价和工作流嵌入点

每周评审问题

  1. 本周新增了哪些真实用户证据?
  2. 哪个假设被证伪了?
  3. 哪个功能只是 AI 做起来容易,但不增强验证?
  4. 有没有把曝光、注册、称赞误判为 PMF?
  5. 下一步最小实验是什么,失败条件是什么?

文件说明

  • specs/role_spec.md:LLM-backed agent 角色边界。
  • specs/execution_spec.md:四阶段执行和门禁规范。
  • specs/output_spec.md:每阶段输出物和证据包规范。
  • specs/startup_validation.specx.json:SpecX 合约,用于约束执行、证据和失败语义。
  • saas.md:垂直 SaaS 行业和典型服务提示库,前端会直接解析它作为用户可选范围,并传入 LLM 上下文。

前端交互

  • 25 Vertical SaaS Industries:可视化展示 saas.md 的 25 类垂直 SaaS。点击任一行业会调用 LLM-backed Skeptic Agent,生成初始质疑、Idea Gate 门槛、必需证据、淘汰信号和 AI 原型陷阱。
  • SaaS Scope Prompts:选择行业和具体服务项,把候选方向写入创意输入,并同步传入后续 agent 追问上下文。

About

AI-native startup validation cockpit with LLM-backed idea review, SaaS prompts, and fail-closed gates

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors