儿童语音陪伴硬件项目规划(无屏版)
1. 项目背景与目标
你女儿目前 3 岁,希望她在尽量不接触电子屏幕的前提下,开始接触 AI、使用 AI,并通过自然对话获得知识启发和情感陪伴。
本项目的核心目标是做一个“无屏、低打扰、可持续迭代”的语音陪伴硬件原型:
- 交互方式:只用麦克风 + 喇叭进行语音交互
- 能力链路:
ASR(听懂) -> LLM API(理解与生成) -> TTS(说出来) - 家庭场景优先:安全、稳定、可控,比“功能多”更重要
2. 需求定义
2.1 用户与使用场景
- 主要用户:3-6 岁儿童
- 次要用户:家长(配置、监管、回顾)
- 典型场景:
- 睡前问答(“为什么天会黑?”)
- 日常陪伴聊天(“今天我搭了积木”)
- 简单启蒙(颜色、数字、英语单词)
- 情绪安抚(“我有点难过”)
2.2 产品原则
- 无屏优先:不依赖显示屏进行主交互
- 短回合优先:每次回答控制在儿童可理解时长内(建议 5-20 秒)
- 安全优先:内容过滤、家长可控、可随时关闭
- 低延迟优先:儿童对等待敏感,单轮响应尽量控制在 1.5-3 秒内
3. MVP 范围(第一阶段必须实现)
3.1 必做能力
- 唤醒或按键触发录音
- 语音识别(ASR)
- 对话中枢(直接调用 LLM API)
- 语音合成(TTS)
- 喇叭播放回答
- 基础安全策略(敏感内容拒答、超长对话截断)
- 家长开关(联网开关、对话时长限制)
3.2 暂不做(避免项目膨胀)
- 摄像头与图像识别
- 复杂多角色动画反馈
- 完整 App 体系(先用本地网页管理页即可)
- 个性化长期记忆(先做“会话内短记忆”)
4. 技术架构设计
4.1 端到端流程
- 设备监听触发(按键 / 唤醒词)
- 采集音频并做降噪 / VAD(语音活动检测)
- 调用 ASR 转文字
- 将文本 + 儿童模式系统提示词发送到 LLM API
- 对返回文本做儿童安全过滤与长度控制
- 调用 TTS 合成语音
- 播放语音并进入下一轮等待
4.2 模块拆分
audio-input:麦克风采集、回声消除、VADasr-service:语音转文字(可云端或本地)dialog-service:上下文管理、Prompt 模板、安全策略tts-service:文本转语音audio-output:音频播放与音量限制parent-control:家长配置、使用统计、黑白名单
4.3 直接 LLM API 的实施策略
- 固定单一对话入口:设备只调用一个
dialog-service dialog-service统一封装:- Prompt 模板(儿童模式)
- 上下文裁剪(如最近 6 轮)
- 安全前后置过滤
- 超时重试与降级回复
- 对外仅暴露稳定接口,后续若要替换底层模型,不影响设备端逻辑
5. 硬件方案(开发版)
5.1 最小硬件清单
- 主控开发板(如树莓派级别或同类 Linux SBC)
- 麦克风模块(建议双麦或带降噪能力)
- 小功放 + 喇叭
- Wi-Fi 模块(多数开发板内置)
- 电源方案(优先稳定供电,电池版可后置)
- 物理按键(PTT:按住说话)或单独唤醒按键
5.2 交互建议(适合 3 岁)
- 初期优先
按键说话,减少误唤醒和隐私风险 - 提示音明确(开始录音 / 结束录音 / 正在思考)
- 回答语速稍慢、句子短、少抽象术语
- 物理音量上限,防止突然大声播放
6. 软件与模型选型建议
6.1 ASR
- 方向 1:云端 ASR(准确率高、落地快)
- 方向 2:本地 ASR(隐私更好、离线可用)
MVP 建议先云端,稳定后评估本地化。
6.2 LLM API
- 系统提示词固定“儿童模式”:
- 用词简单
- 先给结论再解释
- 禁止输出暴力、恐吓、成人内容
- 不确定时鼓励“和爸爸妈妈一起查证”
- 对话长度限制(例如最近 6 轮),控制成本与延迟
6.3 TTS
- 优先选择自然、温和、低刺激音色
- 控制输出长度,超过阈值自动“分段 + 停顿”
- 对“数字、英文、专有名词”做发音优化词典
7. 安全与家长控制(重点)
7.1 内容安全
- 双层过滤:
- LLM 前置过滤:拦截不适龄提问
- LLM 后置过滤:审查回答文本后再 TTS
- 敏感意图统一回复模板(温和拒答 + 引导求助家长)
7.2 使用边界
- 单日总时长上限(如 30-45 分钟)
- 单次连续对话上限(如 10 分钟)
- 夜间静音时段(如 21:00-7:00)
7.3 隐私策略
- 默认不长期存原始音频
- 仅保存必要日志(时间、主题、是否触发过滤)
- 家长可一键清除历史
8. 里程碑与实施计划(8 周示例)
第 1-2 周:可跑通链路
- 硬件连通:麦克风采集 + 喇叭播放
- 打通
ASR -> LLM -> TTS - 在安静环境完成稳定问答
第 3-4 周:体验优化
- 增加 VAD、降噪、提示音
- 儿童模式 Prompt 调优
- 回答时长与可理解性优化
第 5-6 周:安全与家长控制
- 接入内容过滤策略
- 加入时长限制和夜间静音
- 本地管理页(局域网)用于配置
第 7-8 周:家庭内测
- 连续 7-14 天真实家庭使用
- 记录误识别率、平均响应时延、孩子主动提问次数
- 形成第二阶段需求(如离线能力、角色语音、长期记忆)
9. 成本与指标
9.1 关注成本项
- 硬件一次性成本(开发板、麦克风、喇叭)
- 云端调用成本(ASR/LLM/TTS)
- 运营成本(日志、监控、告警)
9.2 核心指标(MVP 验收)
- 端到端平均响应时延:<= 3 秒
- ASR 可理解率(家庭噪音环境):>= 85%
- 安全拦截准确率:高优先问题 100% 拦截
- 日均主动交互次数:可持续增长(反映孩子接受度)
10. 下一步行动清单
- 确定开发板与麦克风模块型号
- 先实现 PTT 交互(按键说话)版本
- 接入最小闭环:云 ASR + LLM + TTS
- 写第一版儿童模式系统提示词与拒答模板
- 做 1 周家庭灰度测试,记录问题并迭代
附录:首版儿童模式系统提示词(可直接使用)
你是一个面向 3-6 岁儿童的语音陪伴助手。
回答必须:
- 使用简单中文短句;
- 每次回答不超过 4 句;
- 先给结论,再给一个生活化例子;
- 语气温和、鼓励式表达;
- 涉及危险、医疗、隐私、成人内容时拒绝详细回答,并引导“让爸爸妈妈一起帮助你”;
- 如果知识不确定,要明确说“我不太确定,我们可以和爸爸妈妈一起查一下”。