小智 AI 聊天机器人是一个基于 ESP32 微控制器的开源硬件项目,旨在让没有电子和编程背景的人也能轻松打造自己的 AI 语音助手。通过下面的详细步骤指南,您无需任何代码知识,只需使用图形化工具,即可完成从设备选 ...
简介:小智 AI 聊天机器人是一个基于 ESP32 微控制器的开源硬件项目,旨在让没有电子和编程背景的人也能轻松打造自己的 AI 语音助手。通过下面的详细步骤指南,您无需任何代码知识,只需使用图形化工具,即可完成从设备选购到联网对话的全部流程。 1、设备与配件选购建议 ESP32-S3-BOX3 开发套件示例:主机自带屏幕、麦克风和喇叭,无需额外接线,可直接使用。 开发板选择:小智机器人固件支持多种 ESP32-S3 开发板。对于初学者,推荐选择一体化的开发板,这类板卡自带麦克风、喇叭,甚至屏幕,开箱即可使用,几乎不需自行接线。 例如:乐鑫 ESP32-S3-BOX3、M5Stack CoreS3 等,它们都内置了 Wi-Fi 功能和音频硬件。这些板卡虽然价格稍高,但上手最简单。 另外,在国内的淘宝等渠道也有一些整合完善的成品板,比如“神奇按钮 2.4”或“Moji 小智AI衍生版”等社区设计的板子,它们已经针对小智项目做了优化设计,同样非常适合新人。 经济实惠方案:如果您预算有限或喜欢自己动手,可以选择ESP32-S3-DevKitC-1等通用开发板(如嘉立创实战派 ESP32-S3 开发板)搭配独立的麦克风模块、喇叭等组件。这种方案成本低,总费用在100元以内。 不过需要您按照项目提供的元件清单自行购买配件(如 INMP441 数字麦克风、MAX98357A I2S 数字功放、8Ω小喇叭、OLED 屏幕等),并手工完成连接。小智项目官方提供了完整的DIY元件清单供参考。虽然初次接线需要一点耐心,但官方设计确保了新手也能成功搭建。 在选购配件时请注意:ESP32-S3 芯片仅支持2.4GHz Wi-Fi,因此您的路由器需提供2.4G网络;同时麦克风和喇叭要与开发板接口兼容(麦克风模块多为I2S接口,喇叭通过I2S功放驱动)。选购上述推荐硬件后,我们就可以开始硬件连接和测试。 2、硬件接线检查与上电测试 一体化开发板:如果您选用的是 ESP32-S3-BOX3、M5Stack CoreS3 等一体板,大部分传感器和组件都已内置。这类板子通常只需通过 USB 线连接电脑供电即可。拿到板子后,首先检查包装内是否有需要安装的配件(如 BOX3 套件内可能有一个扩展座或传感器模块)。 一般情况下,无需任何焊接或连线,只需将板子通过USB线连接电脑,上电后板载指示灯或屏幕会亮起,表示供电正常。如果开发板附带屏幕,开机会显示厂家预置的界面或Logo,这也意味着硬件基本正常。若板载喇叭在上电自检时有提示音,也属正常现象。 开发板 + 模块方案:如果您使用的是 DevKitC 等开发板加独立模块,请按照官方提供的原理图将各组件正确连接。使用面包板可以方便地搭建电路。以下是常见连接要点: 数字麦克风模块:将麦克风模块的电源引脚接到开发板的3.3V和GND,引出的数据线 (SD)、时钟线 (SCK)、左右声道选择 (WS) 等接到ESP32-S3开发板上的特定 I2S 接口引脚(具体引脚请参考小智项目文档或开发板引脚图)。确保麦克风模块的引脚与ESP32 I2S功能对应连接,否则语音采集无法进行。 音频功放与喇叭:将功放模块(如 MAX98357A)的输入端连接到ESP32-S3的I2S输出引脚,包含数据 (SD)、时钟 (SCK)、左右声道选择 (WS) 等,电源接到开发板的5V或3.3V(根据功放模块规格),GND接地。功放的输出端接入小喇叭的正负极。请确保喇叭阻抗和功放匹配,一般使用 4Ω或8Ω的小功率喇叭即可。注意功放芯片在接线时不要短路,建议使用面包板固定。 OLED 显示屏:将OLED屏的SDA、SCL引脚连接到ESP32的I2C引脚(ESP32-S3默认的I2C引脚可配置,多数开发板有标注,如GPIO8/GPIO9等,也可通过杜邦线连接到开发板对应引脚),电源接3.3V,GND接地。OLED用于显示对话内容和设备状态,非常有用。 按键开关:开发板自带的BOOT按键在小智项目中可用作唤醒/打断键。如果需要,可以外接一个按钮连接到ESP32的引脚(例如 IO0)来充当物理唤醒键,但这不是必需的,因为大部分开发板已经有BOOT键。此外复位键ESP32板也通常自带,无需外接。 完成连接后,仔细检查每一根跳线是否插稳,确保电路没有短路或松动。然后将ESP32开发板通过USB线连接电脑,为电路供电。上电后,开发板上的电源指示灯应点亮;如果OLED屏已连接且有预置程序,屏幕可能会有显示。如果一切正常,说明硬件连接良好。 3、安装驱动 驱动安装:在Windows系统下,上电连接后打开设备管理器,应该能看到新增的串口(COM口)。如果出现无法识别设备或没有COM端口,可能是缺少USB转串口驱动。常见的ESP32开发板使用CH340/CH343或CP210x芯片作为USB串口接口。 安装 CH340 USB‑转串口驱动 1 下载驱动 打开官方芯片厂商 WCH 官网驱动页,点击 “CH341SER.EXE”(一键安装包,支持 Win 11/10/8/7 32/64 位)下载并保存。 2 运行安装 双击 CH341SER.EXE → 出现窗口后点 Install → 几秒完成并提示 “Driver install success”。 3 插拔设备 把小智开发板 USB‑C 重新插到电脑,等待系统识别。 4 验证成功 设备管理器 → 展开 端口 (COM & LPT),应出现 USB‑SERIAL CH340 (COM n)(n 为数字);此 COM 号就是后面烧录工具要选的端口。 完成以上步骤后,硬件部分就准备就绪了。接下来我们将下载官方固件并刷入开发板。 4、下载官方刷写包并刷入固件 官方提供了一键刷写的固件包,包含已编译好的小智机器人固件,无需自行开发环境编译。我们将使用图形界面的烧录工具在Windows上将固件刷入ESP32开发板中,避免繁琐的命令行操作 1. 获取固件和烧录工具: 打开小智项目的 GitHub 页面并进入最新的发布 (Release) 页面。根据您所使用的开发板型号下载对应的固件文件(通常为后缀.bin的二进制文件)。发布页会列出多个固件文件,请选择与您的硬件匹配的那一个。例如,文件名中含有“BOX3”的适用于乐鑫 ESP32-S3-BOX3,含“CoreS3”的对应 M5Stack CoreS3,而以“bread”开头的则是面包板DIY通用版本(DevKitC 用)(也可咨询经销商)。 如果您增加了4G模块,还应下载带“ml307”标记的4G版固件。下载固件后,请同时载ESP32官方烧录工具Flash Download Tool(Windows版)。该工具可在乐鑫官方网站的工具下载页面找到,下载后解压即可使用。 2. 打开烧录工具并配置芯片参数:运行 Flash Download Tool 程序,在主界面进行如下配置: 芯片类型 (ChipType):选择 ESP32-S3(因为我们的开发板基于ESP32-S3系列芯片)。 工作模式 (WorkMode):选择 Develop(开发) 模式。 连接接口 (LoadMode):选择 UART 串口下载模式(UART是通过串口线刷写,即我们用的USB串口模式)。 工具中这些选项通常都有下拉菜单可选,按照上述进行选择即可。 3. 加载固件文件:在烧录工具的文件区,点击第1行的“添加文件”按钮,选择刚才下载的小智固件 .bin 文件。选中该文件后,在地址栏填写烧录地址 0(注意:一定要从地址0开始烧写,这样才能包含引导程序和分区表等信息)。然后勾选这行最前面的复选框,确保固件被选中待烧录。 工具界面上还会显示 SPI Flash 的参数(如 Flash 大小、工作模式等),一般会自动匹配开发板,如有需要可以手动设置Flash大小为板载容量(常见4MB/8MB/16MB)以确保烧录稳定。 4. 选择串口号:在烧录工具界面的串口设置区域,选择您的ESP32板对应的COM端口号,并将波特率设置为默认的 115200 或更高(许多ESP32板子在烧录时可支持更高波特率,例如 921600,提高烧写速度)。例如,如果您的板子使用CH340芯片,在下拉列表中会出现“COM3 (CH340)”这样的选项,选中它即可。确认无误后,点击界面上的“START”按钮,准备开始烧录。 5. 进入下载模式并开始烧录:ESP32开发板在普通上电时处于运行模式,需要进入下载模式才能刷写固件。多数开发板支持自动刷写:点击“START”后,工具会通过控制DTR/RTS引脚让板子复位并进入下载模式开始烧录。但如果烧录未开始,则需要手动触发:按住开发板上的 BOOT 按钮(有时标为IO0),然后短按一下 RESET(复位) 按钮,接着松开RESET,再松开BOOT。这样ESP32将进入固件下载模式,烧录工具应当开始进度条,向板子写入固件数据。耐心等待烧录完成,期间不要断开USB。烧录过程通常几十秒内完成(取决于固件大小和波特率)。当工具显示绿色“Finished”或“成功”等提示时,表示固件已刷写完成。 6. 重启验证:固件烧录完成后,点击工具上的“STOP”并关闭烧录工具。然后按一下开发板上的RESET键(或直接断电再上电),让板子重启运行新固件。此时,小智机器人的程序已经写入设备。验证方法:开发板上的OLED或LCD屏幕如果有连接,应该会显示小智机器人的启动信息或提示配置网络;如果没有屏幕,也可能通过串口打印一些启动日志。接下来设备会等待进行Wi-Fi配网。至此,固件刷写成功,我们进入联网配置步骤。 (如果在烧录过程中遇到错误:请检查串口端口是否选择正确,开发板是否进入下载模式。如仍失败,可尝试更换USB线或端口,确认驱动安装无误。此外确保所选固件文件完整无误且地址为0x0。一旦烧录开始尽量避免触碰电路,以防松动导致中断。) 5、使用手机/电脑连接热点完成 Wi-Fi 配网 烧录完官方固件后,小智设备会自动进入配网模式,创建一个供用户配置Wi-Fi的热点(AP)。下面我们通过手机将设备连接家庭无线网络: 连接设备热点:在手机的Wi-Fi设置中,搜索名为Xiaozhi-XXXXXX的无线网络并连接(其中XXXXXX是一串设备ID,如随机的字母数字)。这个热点由小智设备创建,一般不需要密码即可连接。连接成功后,手机可能提示“该网络无互联网连接”,属正常现象。 打开配置页面:在手机浏览器中访问设备的配置页面:http://192.168.4.1 这是ESP32设备的默认配网地址,打开后会出现一个简单的网页表单,让您输入自家Wi-Fi的名称和密码。 输入 Wi-Fi 信息:在网页中,找到输入栏分别填入家庭Wi-Fi的 SSID(无线名称) 和 密码。请注意:只能连接2.4GHz频段的Wi-Fi,确保填写的Wi-Fi为2.4G网络;另外不要输入中文字符,确保Wi-Fi名称和密码均使用字母、数字等常见符号(避免特殊符号导致识别问题)。确认信息无误后,点击“提交”或“保存”(具体按钮名称视页面显示)。 设备联网:提交后,页面会提示配置成功。此时小智设备会自动重启,并尝试连接您刚才提供的 Wi-Fi 网络。等待几秒钟,手机会从小智热点断开(因为设备关掉热点去连路由器了)。此时您可以让手机重新连接回家里的Wi-Fi网络。 确认联网状态:观察小智设备的状态:如果有屏幕,连接成功后屏幕应显示类似“待命”的字样或 Wi-Fi 信号图标,表示设备已上线等待唤醒。没有屏幕的设备可能通过指示灯状态来表示成功(例如持续亮或者变为某种颜色的灯)。联网成功后,小智会自动注册到云端服务器。 (如果设备未能成功连接Wi-Fi:会再次进入AP热点模式,即您可能在Wi-Fi列表中重新看到Xiaozhi-XXXXXX热点。这时请重复上述配网步骤,检查SSID和密码是否正确无误,确认路由器2.4G信号良好。如多次失败,尝试将设备放近路由器,或临时关闭手机的移动数据以确保配置过程稳定。) 完成配网后,小智设备就成功接入互联网并连接到官方云服务器。接下来我们需要在云端平台上绑定设备,以便使用语音对话功能。 6、在浏览器中访问小智云平台绑定设备 小智机器人依托官方云平台提供智能对话服务。您需要注册一个账号并绑定刚才上线的设备,才能开始对话。绑定过程非常简单: 注册账号:**在电脑或手机浏览器访问小智AI云平台网站: 【xiaozhi.me】(小智官方控制台)。 进入页面后,根据提示注册一个新账户,并登录云平台。登录成功后,您将进入小智机器人的在线控制台。 唤醒设备获取验证码:确保小智设备已成功联网并处于待命状态。此时,我们需要获取一组绑定验证码来将设备和您的账号关联。 在设备旁清晰地说出唤醒词 “你好,小智”。如果语音唤醒正常,设备会被唤醒(通常会有提示音或屏幕显示唤醒状态)。 接着,小智设备将提供一个验证码用于绑定。比如,小智可能会通过语音播报或屏幕显示一串六位数字验证码(如果没听清,可再次唤醒它获取新的验证码)。请记下这串验证码。 绑定设备:在小智云平台的控制台页面,找到“添加设备”或绑定设备的入口(新注册账户通常会提示没有设备并引导绑定)。点击后,系统会要求输入一组验证码或设备识别码。将刚才小智提供的验证码填写进去并确认提交。几秒钟内,平台会提示设备绑定成功。现在,您的设备与云端账户建立了连接。 完成配置:绑定成功后,您可以在云平台上看到该设备的在线状态,并可以对其进行一些设置。例如,您可以为小智选择不同的AI大模型(如启用启用了 Qwen 麒麟大模型)或不同的语音合成风格,甚至给它设置一个个性化的对话角色。这些进阶配置都可以在控制台中探索,但对于入门来说默认配置已足够使用。 至此,设备端和云端都准备就绪,您已经完成了小智机器人的基础设置。接下来就可以体验“小智”的语音对话功能了! 7、唤醒词测试、语音识别与语音合成演示 现在,您可以正式与您的小智 AI 语音助手对话互动了!下面通过一次简单的演示来测试唤醒词和语音功能: 唤醒设备:在正常待机状态下,对设备说 “你好,小智”(如果您的设备设置为英文,可尝试说“Hello Xiaozhi”,但默认唤醒词是中文)。 当小智听到唤醒词后,会立即进入倾听模式。多数设备会给出反馈提示您已经成功唤醒它,例如播放一声提示音、亮起指示灯,或者在屏幕上显示表情符号等。 提出问题或指令:在唤醒后,直接对小智说出您想问的问题或让它执行的指令。您可以从简单问答开始,比如询问:“今天天气怎么样?” 或者让小智讲个笑话。“小智”会通过Wi-Fi将您的语音上传到云端进行识别和AI处理,然后生成回复。 聆听小智的回答:几秒钟内,小智会用语音合成(TTS)**朗读回答内容给您。例如,它可能回答:“今天的天气晴朗,适合出行。” 同时,语音识别(STT)和对话内容也会通过屏幕显示出来(如果设备有屏幕)。您会看到小智将您刚才说的话以文字形式显示,并同步显示它自己的回复文本,这样即使在嘈杂环境下也能看清对话内容。如果您的设备没有屏幕,也可以通过听小智的语音回答来了解结果。 持续对话:小智支持自然的流式对话,您可以在每次小智回答完后继续提问。无需每次都重复唤醒词,在一段对话会话中,小智会智能地倾听您的下一句话。当您长时间不说话时,它会回到待命状态。这时再次交流需要重新喊“你好,小智”唤醒。您也可以随时打断小智的语音回答:按下设备上的实体按键(即BOOT键)即可让小智立即停止当前回答并重新等待您的提问。这种设计让对话更灵活,就像和真人聊天一样可随时插话。整个对话过程中,设备的OLED/LCD屏幕还可能显示网络信号强度、表情等信息,让互动更加生动。 更多体验:小智内置支持中英粤日韩等多种语言识别和多轮对话能力,您可以尝试用不同语言与其交流,或是请求一些复杂任务,比如让它翻译一句话、讲故事等。由于小智云端集成了强大的大语言模型(如 Qwen麒麟、DeepSeek 等)和高质量的语音合成服务,它的回答通常颇为智能和自然,您会感觉像在与一个聪明的小伙伴对话。 通过以上步骤,您的小智 AI 语音硬件应该已经成功亮机,并实现了基础的语音唤醒、识别和对答功能。如果一切顺利,恭喜您打造了属于自己的AI语音助手! |