这是一个基于乐鑫 ESP-IDF 平台构建的开源项目,主要用于教学和开发实践。项目旨在帮助学习者及开发者理解如何将大规模语言模型整合到硬件设备中,实现智能语音交互。
核心功能说明
- 网络接入:支持 Wi-Fi 及 ML307 Cat.1 4G 通信模组,保障设备稳定联网。
- 按键操作:通过 BOOT 键实现设备唤醒与中断响应,支持单击与长按两种操作方式。
- 离线语音唤醒:内置 ESP-SR 语音识别引擎,实现无需联网的本地语音唤醒。
- 流式语音对话:可借助 WebSocket 或 UDP 协议实现实时语音交流。
- 多语种识别:集成 SenseVoice 语音模型,支持普通话、粤语、英语、日语与韩语的识别。
- 声纹识别:通过 3D Speaker 技术辨别不同用户的语音特征,提升个性化交互。
- TTS 语音合成:可选择火山引擎或 CosyVoice 进行高质量的语音合成。
- 语言模型支持:支持 Qwen2.5 72B 或豆包 API,实现自然流畅的智能对话。
- 角色定制:允许用户自定义提示词与语音风格,打造个性化AI角色。
- 短期记忆机制:每轮对话结束后自动生成总结,增强上下文连贯性。
- 显示设备适配:兼容 OLED 或 LCD 显示屏,可用于展示网络状态或对话内容。
关于项目
项目特别适合嵌入式开发、语音识别及人工智能相关领域的入门与进阶学习。硬件与软件的结合,为理解端侧AI部署提供了良好的实践案例。
项目为开源项目,代码可在相关平台获取。欢迎对AI与硬件结合感兴趣的开发者共同参与和改进。
分享地址
https://github.com/78/xiaozhi-esp32