ESP32-豆包智能AI机器人
支持两种模式, 一个是唤醒对话模式,一个是普通模式:
-
唤醒对话模式
是用户需要通过唤醒词去唤醒设备,唤醒后设备进入语音交互模式,用户可以与设备进行语音交互。默认的唤醒词是 Hi 乐鑫, 可以在 menuconfig -> ESP Speech Recognition → use wakenet → Select wake words 中去更换唤醒词
-
普通模式
是用户无需唤醒词,直接与设备进行语音交互。
乐鑫 ESP-ADF 框架是
专为音频应用设计的开发框架,基于其物联网开发框架ESP-IDF构建。
它针对音频设备的开发需求,
提供了丰富的音频组件,像音频编解码、CODE
C 芯片驱动
等,还能运行优化过的 3A 音频算法,无需额外 DSP 芯片,有效降低成本,
从硬件驱动到上层应用的完整工具链和组件库,简化了音频产品的开发流程。
ESP-ADF
仓库发布的豆包大模型的 WebRTC 组件基于 UDP 协议,传输速度更快、实时性更强,能更高效地利用带宽资源,未来还可应用于实时视频识别等场景。
在 ESP-ADF 框架下,音频处理借助灵活的 pipeline 完成。上行时,先采集音频,运行本地回声消除算法,接着 opus 编码,随后上传至服务端;
下行则是从服务器获取实时音频数据,经过 opus 解码还原,根据实际情况进行 resample,最终输出到音频设备。而且 pipeline 可随时暂停或继续播放,以此实现语音打断功能,保障音频交互流畅。
在 main 文件夹的 config.h 中配置 Wi-Fi 和大模型的鉴权信息。
商业项目可以自行搭建服务器来分发 Token。
在项目初期进行测试时,有两种方式获取 Token:
一种是在控制台申请临时 Token;
另一种是通过扣子服务器来请求 Token,获取 Token 后能确保设备正常接入大模型服务。
在完成上述操作后,要让设备和智能体进入 RTC 房间,这样才能实现与豆包大模型的对话。同时,还可以在控制台根据个人需求配置智能体的音色等选项,从而获得更个性化的交互体验。