儿童语音陪伴硬件项目规划（无屏版）

Updated: 9 Mar, 2026

1690 字 · 5 分钟

1. 项目背景与目标

我女儿目前 3 岁，希望她在尽量不接触电子屏幕的前提下，开始接触 AI、使用 AI，并通过自然对话获得知识启发和情感陪伴。
本项目的核心目标是做一个“无屏、低打扰、可持续迭代”的语音陪伴硬件原型：

交互方式：只用麦克风 + 喇叭进行语音交互
能力链路：ASR（听懂） -> LLM API（理解与生成） -> TTS（说出来）
家庭场景优先：安全、稳定、可控，比“功能多”更重要

2. 需求定义

2.1 用户与使用场景

主要用户：3-6 岁儿童
次要用户：家长（配置、监管、回顾）
典型场景：
- 睡前问答（“为什么天会黑？”）
- 日常陪伴聊天（“今天我搭了积木”）
- 简单启蒙（颜色、数字、英语单词）
- 情绪安抚（“我有点难过”）

2.2 产品原则

无屏优先：不依赖显示屏进行主交互
短回合优先：每次回答控制在儿童可理解时长内（建议 5-20 秒）
安全优先：内容过滤、家长可控、可随时关闭
低延迟优先：儿童对等待敏感，单轮响应尽量控制在 1.5-3 秒内

3. MVP 范围（第一阶段必须实现）

3.1 必做能力

唤醒或按键触发录音
语音识别（ASR）
对话中枢（直接调用 LLM API）
语音合成（TTS）
喇叭播放回答
基础安全策略（敏感内容拒答、超长对话截断）
家长开关（联网开关、对话时长限制）

3.2 暂不做（避免项目膨胀）

摄像头与图像识别
复杂多角色动画反馈
完整 App 体系（先用本地网页管理页即可）
个性化长期记忆（先做“会话内短记忆”）

4. 技术架构设计

4.1 端到端流程

设备监听触发（按键 / 唤醒词）
采集音频并做降噪 / VAD（语音活动检测）
调用 ASR 转文字
将文本 + 儿童模式系统提示词发送到 LLM API
对返回文本做儿童安全过滤与长度控制
调用 TTS 合成语音
播放语音并进入下一轮等待

4.2 模块拆分

audio-input：麦克风采集、回声消除、VAD
asr-service：语音转文字（可云端或本地）
dialog-service：上下文管理、Prompt 模板、安全策略
tts-service：文本转语音
audio-output：音频播放与音量限制
parent-control：家长配置、使用统计、黑白名单

4.3 直接 LLM API 的实施策略

固定单一对话入口：设备只调用一个 dialog-service
dialog-service 统一封装：
- Prompt 模板（儿童模式）
- 上下文裁剪（如最近 6 轮）
- 安全前后置过滤
- 超时重试与降级回复
对外仅暴露稳定接口，后续若要替换底层模型，不影响设备端逻辑

5. 硬件方案（开发版）

5.1 最小硬件清单

主控开发板（如树莓派级别或同类 Linux SBC）
麦克风模块（建议双麦或带降噪能力）
小功放 + 喇叭
Wi-Fi 模块（多数开发板内置）
电源方案（优先稳定供电，电池版可后置）
物理按键（PTT：按住说话）或单独唤醒按键

5.2 交互建议（适合 3 岁）

初期优先 按键说话，减少误唤醒和隐私风险
提示音明确（开始录音 / 结束录音 / 正在思考）
回答语速稍慢、句子短、少抽象术语
物理音量上限，防止突然大声播放

6. 软件与模型选型建议

6.1 ASR

方向 1：云端 ASR（准确率高、落地快）
方向 2：本地 ASR（隐私更好、离线可用）

MVP 建议先云端，稳定后评估本地化。

6.2 LLM API

系统提示词固定“儿童模式”：
- 用词简单
- 先给结论再解释
- 禁止输出暴力、恐吓、成人内容
- 不确定时鼓励“和爸爸妈妈一起查证”
对话长度限制（例如最近 6 轮），控制成本与延迟

6.3 TTS

优先选择自然、温和、低刺激音色
控制输出长度，超过阈值自动“分段 + 停顿”
对“数字、英文、专有名词”做发音优化词典

7. 安全与家长控制（重点）

7.1 内容安全

双层过滤：
- LLM 前置过滤：拦截不适龄提问
- LLM 后置过滤：审查回答文本后再 TTS
敏感意图统一回复模板（温和拒答 + 引导求助家长）

7.2 使用边界

单日总时长上限（如 30-45 分钟）
单次连续对话上限（如 10 分钟）
夜间静音时段（如 21:00-7:00）

7.3 隐私策略

默认不长期存原始音频
仅保存必要日志（时间、主题、是否触发过滤）
家长可一键清除历史

8. 里程碑与实施计划（8 周示例）

第 1-2 周：可跑通链路

硬件连通：麦克风采集 + 喇叭播放
打通 ASR -> LLM -> TTS
在安静环境完成稳定问答

第 3-4 周：体验优化

增加 VAD、降噪、提示音
儿童模式 Prompt 调优
回答时长与可理解性优化

第 5-6 周：安全与家长控制

接入内容过滤策略
加入时长限制和夜间静音
本地管理页（局域网）用于配置

第 7-8 周：家庭内测

连续 7-14 天真实家庭使用
记录误识别率、平均响应时延、孩子主动提问次数
形成第二阶段需求（如离线能力、角色语音、长期记忆）

9. 成本与指标

9.1 关注成本项

硬件一次性成本（开发板、麦克风、喇叭）
云端调用成本（ASR/LLM/TTS）
运营成本（日志、监控、告警）

9.2 核心指标（MVP 验收）

端到端平均响应时延：<= 3 秒
ASR 可理解率（家庭噪音环境）：>= 85%
安全拦截准确率：高优先问题 100% 拦截
日均主动交互次数：可持续增长（反映孩子接受度）

10. 下一步行动清单

确定开发板与麦克风模块型号
先实现 PTT 交互（按键说话）版本
接入最小闭环：云 ASR + LLM + TTS
写第一版儿童模式系统提示词与拒答模板
做 1 周家庭灰度测试，记录问题并迭代

附录：首版儿童模式系统提示词（可直接使用）

你是一个面向 3-6 岁儿童的语音陪伴助手。
回答必须：

使用简单中文短句；
每次回答不超过 4 句；
先给结论，再给一个生活化例子；
语气温和、鼓励式表达；
涉及危险、医疗、隐私、成人内容时拒绝详细回答，并引导“让爸爸妈妈一起帮助你”；
如果知识不确定，要明确说“我不太确定，我们可以和爸爸妈妈一起查一下”。

相关内容

德州扑克入门（内部分享稿）