AI Persona System:三层人设体系
一句话总结:30 万+ AI 人设库,从普通 AI 到真人级模拟,保证研究质量。
为什么需要 AI 人设体系?
问题:低质量人设导致无意义反馈
场景 A:使用低质量人设
用户:"测试这个产品概念,看用户是否喜欢"
AI 用临时生成的人设回答:
- 人设 1:"这个产品很好,我会买"
- 人设 2:"不错,有创意"
- 人设 3:"挺好的"
问题:
- 反馈太笼统,没有具体原因
- 无法追问"为什么喜欢"
- 感觉像"AI 幻觉",不真实
场景 B:使用高质量人设
用户:"测试这个产品概念,看用户是否喜欢"
AI 用 Tier2 人设回答:
- 人设 1(28 岁白领女性,月入 15K):"价格有点贵,我平时买这类产品预算是 $50,这个要 $80"
- 人设 2(32 岁创业者,注重效率):"功能不错,但我更关心能不能和我现有的工具集成"
- 人设 3(25 岁 Z 世代,关注颜值):"包装不够好看,我不会拍照分享"
价值:
- 反馈具体,有细节
- 可以追问和深挖
- 接近真人的洞察
三层品质体系
Tier 0:临时生成
特点:
- 数量:无限(即时生成)
- 质量:低
- 一致性:< 60%(远低于人类 81% 基准)
- 构建方式:AI 临时生成
适用场景:
- 快速验证想法
- 预算极其有限
- 不需要深度洞察
局限:
- 反馈浅薄,缺少细节
- 一致性差,重复测试结果不同
- 不适合关键决策
- 注:不对外开放,因其质量不足可能误导研究结论
Tier 1:基础人设
特点:
- 数量:~30 万
- 质量:中
- 一致性:70-75%(接近真人 81% 基准的 90%)
- 构建方式:基础 7 维度数据
7 维度数据:
- 人口统计(demographic):年龄、性别、收入、职业、教育
- 地理(geographic):城市、生活环境
- 心理(psychological):价值观、生活方式、动机、恐惧
- 行为(behavioral):消费习惯、决策模式、品牌偏好
- 痛点(needsPainPoints):需求和顾虑、未被满足的需求
- 技术接受度(techAcceptance):对新产品的开放程度
- 社交关系(socialRelations):家庭结构、社交圈、群体归属
适用场景:
- 常规商业研究
- 产品概念测试
- 市场定位研究
- 市场趋势探索
- 创意激发(Discussion Chat)
价值:
- 比 Tier0 真实很多
- 覆盖广泛人群
- 成本可控
数据来源:
- 社交媒体深度观察(Scout Agent 15 次工具调用)
- CDP 消费者数据平台
- 性格测试结果
Tier 2:真人级模拟
特点:
- 数量:~1 万
- 质量:高
- 一致性:85%(超越真人 81% 基线)
- 构建方式:深度数据 + 社交观察
什么是 85% 一致性?
测试方法:
- 同一个问题问同一个 Tier2 人设 10 次
- 85% 的情况下,核心观点保持一致
对比:
- Tier2 人设:85% 一致性(超越人类基准 105%)
- 真人基线:81% 一致性(100 分标准)
- Tier1 人设:70-75% 一致性(90% 人类水平)
- Tier0 人设:< 60% 一致性(< 77% 人类水平)
示例测试:
问题:"你会购买这款 $80 的健康零食吗?"
Tier2 人设(张丽,28 岁白领)10 次回答:
- 8 次:"太贵了,我平时买零食预算是 $30-50"
- 1 次:"如果是特殊场合可能会买"
- 1 次:"取决于口味,如果特别好吃可以接受"
核心观点一致:价格超出预算,不会日常购买
真人基线(81%): 真人也不是 100% 一致,因为心情、环境、表达方式会变化,但核心观点保持 81% 一致。
Tier2 人设(85%): 已经超过真人基线,可以用于关键商业决策。
适用场景:
- 关键产品决策
- 品牌重新定位
- 高价值项目验证
- 需要深度洞察的研究
- 深度用户洞察(理解"为什么")
- 情绪共鸣测试
- 替代真人访谈
价值:
- 接近真人表现
- 可信度高
- 可指导重大决策
- 超越人类基准(85% vs 81%)
- 无社交压力,回答更真实
- 可重复访谈,不会"疲劳"或"改口"
数据来源:
- 1 小时深度访谈(5000 字)
- 30+ 次社交媒体深度观察
局限性:
- 不能替代创新需求发现(基于已有数据)
- 不适合极端小众群体(库中可能不存在)
Tier 3:私有人设
特点:
- 数量:用户自定义
- 质量:取决于数据完整度
- 一致性:取决于导入数据质量
- 构建方式:用户手动创建或导入
适用场景:
- 特定项目需要特定人设
- 团队已有用户画像数据
- 需要模拟特定真实用户
- 企业客户研究
- 内部培训
- 敏感数据研究
- 持续追踪
构建方式:
- 手动创建:精细定义每个维度
- 导入数据:从 CRM/用户研究导入
- 基于真人:模拟特定真实用户
价值:
- 完全符合项目需求
- 可以持续复用
- 团队私有,数据安全
隐私保护:
- 数据存储在用户专属分区,其他用户完全不可见
- 不参与公开库的搜索索引
- 不会被 AI 用于训练或推荐给其他用户
- 用户可随时删除,数据立即物理销毁
一致性分数:
- 导入深度访谈记录(5000 字)→ 可达 85 分(等同 Tier 2)
- 导入 CRM 购买记录 → 约 70-75 分(Tier 1 水平)
- 只导入基础信息表 → 约 55-60 分(Tier 0 水平)
深入理解:一致性科学原理
人类基准:81% 的真相
实验设计:让真人回答 50 个价值观/行为偏好问题,两周后再次回答(不告知),计算一致性。
结果:人类平均一致性为 81%,我们将其定义为 100 分标准。
这意味着:
- 85分的 AI Persona 比普通人更稳定(超越人类基准 105%)
- 79分的 AI Persona 接近真人表现(98% 人类水平)
- 70-75分的 AI Persona 约为真人 90% 的稳定性
- 62分的 AI Persona 只有真人 76% 的稳定性
数据源与一致性分数
| 数据源 | Atypica 一致性分数 | 对应 Tier | 人类基准对比 | 典型数据量 |
|---|---|---|---|---|
| 个人信息 | 55分 | Tier 0 | 68% | 姓名、年龄、城市、职业 |
| 性格测试 | 64分 | Tier 0-1 | 79% | 120-300 个测试题结果 |
| 消费者数据平台(CDP) | 73分 | Tier 1 | 90% | 购买历史、行为轨迹 |
| 社交媒体(泛观察) | 75分 | Tier 1 | 93% | 100-200 条内容浏览 |
| 社交媒体(定向观察) | 79分 | Tier 1 | 98% | 15次工具调用、3000字观察 |
| 深度访谈 | 85分 | Tier 2 | 105% | 5000字访谈记录 |
| 真人 | 100分(81%基准) | - | 100% | - |
关键发现:
- 79分是临界点:Scout Agent 通过 15 次社交媒体深度观察,可达到 98% 人类基准
- 85分是天花板:深度访谈级数据可超越人类平均一致性
- 数据量≠质量:CDP 海量数据(73分)不如定向社交观察(79分),关键在信息密度
为什么 85 分是天花板?
- 人类自己的一致性只有 81%(受情绪、环境、表达方式影响)
- AI Persona 如果超过 85%,会显得"过于机械"
- 85% 是"真实感"和"一致性"的最佳平衡点
人设质量对比
| 维度 | Tier 0 | Tier 1 | Tier 2 | Tier 3 | 真人 |
|---|---|---|---|---|---|
| 一致性 | < 60% | 70-75% | 85% | 取决于数据 | 81% |
| 对比人类 | < 77% | ~90% | 105% | 取决于数据 | 100% |
| 反馈深度 | 浅薄 | 中等 | 深入 | 取决于数据 | 最深 |
| 可追问性 | 差 | 中 | 好 | 取决于数据 | 最好 |
| 成本 | 免费 | 低 | 中 | 低(自建) | 高($200/人) |
| 时间 | 即时 | 即时 | 即时 | 需构建 | 2-4 周招募 |
| 数量 | 无限 | 30 万+ | 1 万+ | 自定义 | 受限于预算 |
真实案例对比
案例:测试"气泡咖啡"产品概念
用 Tier 0 人设(临时生成):
访谈 5 人,反馈:
- 人设 1:"这个产品不错"
- 人设 2:"我可能会买"
- 人设 3:"挺有创意的"
- 人设 4:"听起来不错"
- 人设 5:"我喜欢尝试新产品"
问题:
- 反馈太笼统,无法指导决策
- 追问"为什么",回答含糊
- 感觉不真实
用 Tier 2 人设(真人级模拟):
访谈 5 人,反馈:
人设 1(张丽,28 岁白领女性,月入 15K): "气泡咖啡听起来挺新鲜的。我平时下午 3 点会买咖啡或奶茶,但奶茶太甜,普通咖啡又太苦。气泡咖啡的清爽感应该不错。不过我会担心气泡感太强,影响咖啡味道。价格的话,¥25-30 可以接受,如果超过 ¥35 我觉得有点贵。包装一定要好看,我才会拍照发朋友圈。"
追问:"什么情况下你会选择它而不是普通咖啡?" 回答:"不是为了提神,而是想喝点特别的放松一下。比如周五下午,完成了一周工作,想奖励自己。或者和朋友逛街时,想尝试新东西。"
人设 2(李明,32 岁创业者,注重效率): "我对气泡咖啡不太感兴趣。我喝咖啡主要是为了提神工作,不太在乎口味创新。而且我担心气泡感会让我打嗝,影响工作状态。如果你们想打这个市场,我建议主打年轻女性,而不是我这种工作狂。"
人设 3(王悦,25 岁 Z 世代,关注颜值): "哇,气泡咖啡听起来很有趣!我肯定会买来试试,特别是如果包装设计好看的话。我最近在小红书上看到很多人晒气泡饮料,感觉很适合拍照。价格 ¥30 左右我能接受,毕竟是新产品。不过如果不好喝我就不会复购了。"
人设 4(陈思,30 岁健康派,注重成分): "我会关注气泡咖啡的成分。如果是真正的咖啡加天然气泡,我会考虑买。但如果是加了很多添加剂和香精,我就不会买。价格方面,如果成分好,¥35-40 我也能接受。我现在买的精品咖啡也要 ¥30 左右。"
人设 5(赵欣,27 岁白领,预算有限): "气泡咖啡听起来不错,但我会担心价格。我平时买咖啡的预算是 ¥15-20,如果气泡咖啡要 ¥30+,我可能不会常买。偶尔尝鲜可以,但不会成为日常选择。除非有优惠活动,比如第二杯半价,我才会考虑经常买。"
对比结果:
| 维度 | Tier 0 | Tier 2 |
|---|---|---|
| 反馈深度 | 表面,无细节 | 深入,有具体场景和原因 |
| 可追问性 | 差,追问后含糊 | 好,可以深度追问 |
| 洞察价值 | 低,无法指导决策 | 高,明确指导定位和定价 |
| 真实感 | 像 AI 幻觉 | 接近真人 |
基于 Tier 2 反馈的决策:
- 定位:社交饮料(而非提神饮料)
- 目标用户:25-30 岁女性白领和 Z 世代
- 定价:¥25-30(甜蜜点)
- 包装:年轻化设计,强调气泡感和拍照属性
- 传播:小红书种草,强调"新鲜感"和"社交属性"
三种人设构建方式
方式 1:Scout Agent 自动生成
流程:
- Scout Agent 观察社交媒体 10-15 轮
- 提取真实用户特征(7 维度数据)
- 自动生成 Tier1/Tier2 高质量人设
价值:
- 基于真实用户,不是想象
- 自动生成,无需人工
- 质量高,一致性 79-85%
适用场景:
- 新市场进入前
- 不了解目标用户
- 需要快速建立高质量人设库
案例:
Scout 观察"小红书讨论气泡咖啡的用户" 10 轮 → 自动生成 3 类 Tier2 人设:
- 类型 1:25-30 岁白领女性,注重颜值和社交
- 类型 2:28-35 岁健康派,关注成分和卡路里
- 类型 3:22-28 岁 Z 世代,追求新鲜感
→ 直接用于 Discussion 测试产品定位
注意:
- 15 次工具调用通常生成 Tier 1(79 分)
- 30+ 次工具调用可能达到 Tier 2(85 分)
- 99% 的 Scout 观察结果是 Tier 1
方式 2:导入真实数据
流程:
- 团队已有用户画像数据(Excel/CSV/PDF)
- 导入 atypica.AI
- 系统自动转换为 Tier3 人设
数据要求:
- 基础信息:年龄、性别、职业、收入
- 可选信息:消费习惯、价值观、痛点
价值:
- 利用已有数据资产
- 无需从头构建
- 可以持续复用
适用场景:
- 团队已做过用户研究
- 有 CRM 用户数据
- 需要模拟现有客户
案例:
某品牌已有 500 个用户画像(来自过往调研) → 导入 atypica.AI → 生成 500 个 Tier3 人设 → 用于测试新产品概念 → 节省重新构建人设的时间
质量提示:
- 系统会自动分析数据完整度
- 提示"缺失维度"
- 建议启动 Follow-up Interview 补充信息
方式 3:手动创建
流程:
- 在系统中创建新人设
- 填写 7 维度信息
- 保存为 Tier3 私有人设
适用场景:
- 需要模拟特定真实用户
- 数据非常精确
- 长期项目需要稳定人设
案例:
某咨询项目需要模拟客户的核心用户 → 手动创建 5 个 Tier3 人设 → 基于客户提供的详细用户画像 → 项目全程使用这 5 个人设 → 确保研究一致性
附录:7 维度评分详解
评分体系
每个维度评分 0-1 分,总分 0-7 分:
| 维度 | 0 分 | 1 分 | 示例 |
|---|---|---|---|
| 人口统计 demographic | 无数据 | 完整(年龄/性别/职业/收入/教育) | 28 岁女性,互联网产品经理,月入 15K,本科 |
| 地理 geographic | 无数据 | 完整(城市/生活环境) | 上海,租住在徐汇区,通勤 1 小时 |
| 心理 psychological | 无数据 | 完整(价值观/生活方式/动机/恐惧) | 注重生活品质,愿意为好产品付费,喜欢尝试新事物,担心浪费金钱 |
| 行为 behavioral | 无数据 | 完整(消费习惯/决策模式/品牌偏好) | 网购为主,喜欢看评价,会对比多个品牌,信任小红书推荐 |
| 痛点 needsPainPoints | 无数据 | 完整(需求和顾虑/未满足需求) | 工作忙没时间逛街,担心买到劣质产品,希望快速决策 |
| 技术接受度 techAcceptance | 无数据 | 完整(对新产品的开放度) | 早期采用者,愿意尝试新 App,对 AI 产品感兴趣 |
| 社交关系 socialRelations | 无数据 | 完整(家庭/社交圈/群体归属) | 单身,朋友圈多为同龄白领,常一起逛街和聚餐 |
总分与 Tier 的关系
- 0-3 分:Tier 0(临时生成,质量低,不对外开放)
- 4-5 分:Tier 1(基础人设,质量中,70-75% 一致性)
- 6-7 分:Tier 2(真人级模拟,质量高,85% 一致性)
- Tier 3:用户自定义,取决于输入数据完整度
各维度获取难度
| 维度 | 社交媒体可获取 | CDP 可获取 | 需深度访谈 |
|---|---|---|---|
| demographic(人口) | ✅ | ✅ | ✅ |
| geographic(地理) | ✅ | ✅ | ✅ |
| psychological(心理) | ⚠️ | ❌ | ✅ |
| behavioral(行为) | ✅ | ✅ | ✅ |
| needsPainPoints(痛点) | ⚠️ | ❌ | ✅ |
| techAcceptance(技术) | ⚠️ | ⚠️ | ✅ |
| socialRelations(社交) | ⚠️ | ❌ | ✅ |
图例:
- ✅ 完整覆盖
- ⚠️ 部分覆盖(可能缺失细节)
- ❌ 基本缺失
关键发现:
- Tier 1(4-5 分)可以通过社交媒体 + CDP 构建
- Tier 2(6-7 分)需要深度访谈补充心理/痛点/社交维度
常见问题
Q1:如何选择合适的 Tier?
决策树:
建议:
- 大多数情况下用 Tier 1(性价比最高)
- 关键决策用 Tier 2(质量保证)
- 不建议使用 Tier 0(质量不足)
Q2:Tier 2 人设数量为什么只有 1 万+?
原因:
- Tier 2 需要深度数据构建(5000 字访谈或 30+ 次观察)
- 主要通过 atypica 团队深度访谈生成
- 需要时间积累
但足够使用:
- 覆盖主要人群类型
- 可以通过 Scout 快速生成新的 Tier 2 人设(30+ 次调用)
- 用户可以创建 Tier 3 补充
Q3:可以把 Tier 1 升级到 Tier 2 吗?
不能直接升级,但可以:
- 用 Scout Agent 继续观察(需 30+ 次工具调用)
- 系统自动重新评分
- 或者导入深度访谈数据创建新的 Tier 3
注意:
- 用户无法直接操作公开库 Personas
- 如需定制,使用 Tier 3 导入自己的数据
Q4:Tier 3 人设可以分享给团队吗?
可以(路线图中):
- 当前 Tier 3 Personas 仅创建者可见
- 未来计划支持团队级 Tier 3(Team Personas)
- 细粒度权限控制(只有管理员可编辑)
Q5:人设会过时吗?
会:
- 用户心理和行为会随时间变化
- 市场趋势会变化
建议:
- Tier 1:对于快速变化领域,优先使用近 6 个月构建的 Personas
- Tier 2:对于稳定领域,可使用近 2 年的 Personas
- Tier 3:根据真实用户变化手动更新
Q6:如何验证人设质量?
方法 1:一致性测试
- 同一个问题问 10 次
- 看核心观点是否一致
- Tier 2 应该 ≥ 85%
方法 2:对比真人
- 用相同问题问真人和 AI 人设
- 对比反馈的深度和真实性
方法 3:实际使用效果
- 基于 AI 人设反馈做决策
- 后续验证决策是否正确
Q7:可以混用不同 Tier 吗?
可以:
- 同一个研究中可以用不同 Tier
- 例如:用 Tier 1 快速筛选,用 Tier 2 深度验证
建议:
- 不要在同一个 Interview/Discussion 中混用
- 会导致反馈质量不一致
Q8:Tier 1 和 Tier 2 的一致性分数差距大吗?
差距显著:
- Tier 1(70-75 分):相当于人类基准的 90%,适合"态度探索"
- Tier 2(85 分):超越人类基准(105%),适合"动机理解"
类比:
- Tier 1 像"认识 3 个月的朋友":知道 TA 喜欢什么,但不知道为什么
- Tier 2 像"认识 3 年的好友":理解 TA 的价值观、恐惧、矛盾
Q9:为什么 Tier 0 不对用户开放?
质量优先于数量:
- 低质量 Personas 会导致误导性结论
- 浪费时间
- 损害信任
- 宁可库存少,也要保证每个 Persona 都可靠
Q10:Scout Agent 能构建 Tier 2 Personas 吗?
理论上可以,实际上很难:
- 需要 30+ 次工具调用
- 覆盖全部 7 个维度
- 500+ tokens 深度文本
- 99% 的 Scout 观察结果是 Tier 1
对于关键用户群体(如"新能源车主""医美用户"),atypica 团队会主动进行 1 小时真人访谈,转化为 Tier 2 Personas 加入公开库。
附录:竞品对比
vs. 传统 Persona 工具(如 HubSpot, Xtensio)
| 维度 | 传统工具 | atypica.AI |
|---|---|---|
| 构建方式 | 人工填写表单 | AI 自动观察社交媒体或导入数据 |
| 质量标准 | 无标准(凭经验) | 7 维度自动评分,一致性可量化 |
| 分层体系 | ❌ 无分层 | ✅ 4 级分层(Tier 0-3) |
| 可交互性 | ❌ 静态文档 | ✅ 可深度访谈(7 轮对话) |
| 规模 | 通常 5-10 个 | 30 万+ 公开库 + 用户私有库 |
结论:传统工具是"静态文档",atypica 是"可交互的数字人"。
vs. 合成数据平台(如 Gretel, Mostly AI)
| 维度 | 合成数据平台 | atypica.AI |
|---|---|---|
| 应用场景 | 隐私保护的数据集生成 | 用户洞察和研究 |
| 质量评估 | 统计分布相似度 | 一致性分数(对标人类基准) |
| 可解释性 | ❌ 黑盒 | ✅ 7 维度透明评分 |
| 使用方式 | 导出数据集(CSV/JSON) | 直接访谈(Interview Chat) |
结论:合成数据平台关注"数据合规",atypica 关注"洞察质量"。
vs. AI 聊天机器人(如 Character.AI, Replika)
| 维度 | AI 聊天机器人 | atypica.AI |
|---|---|---|
| 目标 | 娱乐、陪伴 | 商业研究 |
| 质量标准 | 有趣、共情 | 一致性、真实性 |
| 数据来源 | 用户定义性格 | 真实社交媒体或访谈数据 |
| 验证机制 | ❌ 无验证 | ✅ 人类基准对标 |
结论:AI 聊天机器人是"虚拟朋友",atypica 是"研究对象"。
atypica.AI 的核心差异化
-
科学化的质量标尺
- 不是"感觉像真人",而是"量化一致性 79-85 分"
- 对标人类基准(81%),可验证
-
透明的分层体系
- 不是"一刀切",而是"按需选择 Tier"
- 用户清楚知道每个 Persona 的能力边界
-
公私混合架构
- 公开库(30 万+)+ 私有库(用户自定义)
- 灵活组合
实战建议
1. 新手推荐:先用 Tier 1,关键时刻用 Tier 2
原因:
- Tier 1 性价比高
- 质量足够常规研究
- 节省预算
何时升级到 Tier 2:
- 需要向老板/客户汇报
- 产品上市前的最后验证
- 品牌重新定位
2. 用 Scout 生成高质量人设
最佳实践:
- 研究前先用 Scout 观察 10-15 轮
- 自动生成 Tier 1/2 人设
- 直接用于 Interview/Discussion
- 确保研究质量
3. 建立团队 Tier 3 人设库
长期价值:
- 所有项目共用
- 持续积累和优化
- 提升研究一致性
建议:
- 每个项目结束后,保存关键人设
- 定期更新人设数据
- 团队共享和复用
4. 不要过度依赖 Tier 0
常见错误:
- 为了省钱全用 Tier 0
- 导致反馈质量差
- 基于低质量反馈做错误决策
正确做法:
- Tier 0 不对外开放(系统已屏蔽)
- 正式研究用 Tier 1/2
5. 质量检查清单
Tier 1 质量检查
- 是否覆盖了目标群体的多样性?(至少 3-5 个不同画像)
- 回答是否前后一致?(多次提问不矛盾)
- 观点是否有具体细节?(不是泛泛而谈)
- 如果回答太浅,考虑升级到 Tier 2
Tier 2 质量检查
- 是否挖掘出深层动机?(不止停留在表面原因)
- 是否有情绪细节?(具体的担心、期待、矛盾)
- 是否能解释行为逻辑?(为什么会这样选择)
- 如果仍不充分,考虑真人访谈验证
6. 常见错误与避坑指南
错误 1:把 Tier 1 当 Tier 2 用
现象:用社交媒体观察的 Persona 进行深度动机访谈,发现回答浅层。
解决:
- 先用 Tier 1 做假设生成(有哪些可能的原因)
- 再用 Tier 2 做动机验证(哪个原因是真正的驱动力)
错误 2:盲目追求 Personas 数量
现象:搜索到 50 个 Personas,全部进行访谈,结果信息冗余。
解决:
- 初筛:先搜索 30-50 个,按相似度排序
- 聚类:人工归纳 3-5 个典型画像
- 深度访谈:只对典型画像进行深度访谈
错误 3:忽视 Personas 的时效性
现象:使用 2022 年构建的 Personas 研究 2024 年的市场。
解决:
- 对于快速变化的领域(如科技产品),优先使用近 6 个月构建的 Personas
- 对于稳定领域(如基础需求),可使用近 2 年的 Personas
错误 4:把 AI Persona 当"真理"
现象:AI Persona 说"用户不喜欢 XX",就直接砍掉功能。
解决:
- 小样本验证:用 5-10 个真人测试 AI Persona 的结论
- A/B 测试:上线后用真实数据验证假设
快速参考
Tier 选择速查表
| 研究问题 | 推荐 Tier | 工具组合 | 时间 |
|---|---|---|---|
| 这群人喜欢什么? | Tier 1 | searchPersonas + discussionChat | 1 小时 |
| 为什么喜欢/不喜欢? | Tier 2 | searchPersonas + interviewChat | 3-5 小时 |
| VIP 客户需求分析 | Tier 3 | Persona Import + Follow-up | 1-2 天 |
| 概念快速验证 | Tier 1 | 批量 discussionChat | 2-4 小时 |
| 产品定位决策 | Tier 2 | 深度 interviewChat + 真人验证 | 3-5 天 |
一致性分数速查表
| 分数 | 等级 | 人类对比 | 适用场景 |
|---|---|---|---|
| 85 | Tier 2 | 超越人类(105%) | 关键决策、深度动机 |
| 79 | Tier 1 | 接近人类(98%) | 趋势探索、态度调研 |
| 73 | 边界 | 低于人类(90%) | 仅供参考 |
| <60 | Tier 0 | 远低于人类(<77%) | 不建议使用 |
总结
AI Persona System 核心价值:
- 质量分层:从 Tier 0 到 Tier 3,满足不同需求
- 真人级模拟:Tier 2 一致性 85%,超越真人 81%
- 灵活构建:Scout 生成、导入数据、手动创建
- 科学标尺:对标人类基准(81%),可验证
选择建议:
- 常规研究:Tier 1(性价比高)
- 关键决策:Tier 2(质量保证)
- 不建议使用:Tier 0(质量不足)
- 特定项目:Tier 3(完全定制)
最佳实践:
- 用 Scout 生成高质量人设
- 建立团队 Tier 3 人设库
- 关键研究用 Tier 2
- 不要过度依赖 Tier 0
- 先用 Tier 1 做假设生成,再用 Tier 2 做动机验证
- 小样本真人验证关键结论
文档版本:v3.0 | 2026-01-17 | 合并版:新版结构 + 旧版技术细节