橙色云资讯 - 工业互联网行业信息门户

乐鑫语音之文字转语音

小明 2022-05-30

乐鑫语音芯片 include

798 字丨阅读本文需 2 分钟

今天，我们来研究乐鑫的语音助手框架ESP-Skainet其中的中文语音合成的例程。

编译原例程

1、首先需要clone例程

git clone --recursive https://github.com/espressif/esp-skainet.git

该工程内部自带一个idf，是运行的最佳版本，不过你任然可以使用自己的idf。

2、进入例程中

cd esp-skainet/examples/chinese_tts

3、理论上设置好了芯片型号为esp32s3后自动调用sdkconfig.defaults.esp32s3配置文件。但是实际上好像并没有，所以这里加一个步骤确保能使用上默认配置。

cp sdkconfig.defaults.esp32s3 sdkconfig.defaults

4、设置芯片为esp32s3

idf.py set-target esp32s3

5、进入menuconfig

idf.py menuconfig

修改Audio Media Hal->Audio Hardware board 改成ESP32-S3-Korvo-1

6、编译烧录程序

idf.py flash monitor -p /dev/ttyUSB0

运行原例程

运行后，可以看到如下打印：

“欢迎使用乐鑫语音合成

I (266) tts_parser: unicode:0x6b22 -> huan1

I (266) tts_parser: unicode:0x8fce -> ying2

I (276) tts_parser: unicode:0x4f7f -> shi3

I (276) tts_parser: unicode:0x7528 -> yong4

I (286) tts_parser: unicode:0x4e50 -> le4

I (286) tts_parser: unicode:0x946b -> xin1

I (296) tts_parser: unicode:0x8bed -> yu3

I (296) tts_parser: unicode:0x97f3 -> yin1

I (306) tts_parser: unicode:0x5408 -> he2

I (306) tts_parser: unicode:0x6210 -> cheng2

请输入短语:”

简化原例程分析

原例程大致分为两个功能，第一个功能是阅读“乐鑫语音合成”这句话，还有一个功能是朗读串口输入的文字。

第二部分经常会有bug，所以咱们简化例程，重心分析第一个功能。简化例程如下：

#include

#include "freertos/FreeRTOS.h"

#include "freertos/task.h"

#include "esp_system.h"

#include "esp_tts.h"

#include "esp_tts_voice_xiaole.h"

#include "esp_board_init.h"

int app_main()

{

ESP_ERROR_CHECK(esp_board_init(AUDIO_HAL_16K_SAMPLES, 1, 16)); // 初始化codec芯片，配置好采样率、声道数、采样大小

esp_tts_voice_t *voice = (esp_tts_voice_t *)&esp_tts_voice_xiaole; // 配置tts的声音配置文件，来自libvoice_set_xiaole

esp_tts_handle_t *tts_handle = esp_tts_create(voice); // 创建tts对象

char *prompt1 = "你好我是启明云端"; // 需要转换的文字

if (esp_tts_parse_chinese(tts_handle, prompt1)) // 文字解析成拼音

{

int len[1] = {0};

{

short *pcm_data = esp_tts_stream_play(tts_handle, len, 3); // 拼音转换成pcm音频

esp_audio_play(pcm_data, len[0] * 2, portMAX_DELAY); //播放音频

} while (len[0] > 0);

}

esp_tts_stream_reset(tts_handle); // 重置 tts 流并清除 TTS 实例的所有缓存

return 0;

}

这里音频的tts来自静态库libvoice_set_xiaole中，目前也只有这一个音色可供使用，其余的tts相关函数则是属于静态库libesp_tts_chinese。

总结

tts过度封装化，一定程度上注定它的使用难度不高。但是依据已跑完的例程来看，音频任然有发声的问题，对于现在的一些成熟的tts方案，乐鑫的这个tts还有一些差距，这个缺点可能导致无法应用于商业化项目中。项目中如果涉及到语音转文字的内容，一方面可以通过云平台的提供的API能力发送文字收取PCM音频来解决。另一方面如果是有限的词汇，也可以用语音拼接的方式，把相应的音频存到文件系统中，通过映射播放指定的内容并拼凑成一段完整的语句。例如“支付宝收款”、“元”、“个”、“十”、“百”、“千”、“万”这几段文字的语音就基本可以通过拼凑音频达到支付宝语音播报功能。

免责声明：凡注明来源本网的所有作品，均为本网合法拥有版权或有权使用的作品，欢迎转载，注明出处本网。非本网作品均来自其他媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容，请依照下方联系方式进行沟通，我们将第一时间进行处理。

0赞好资讯，需要你的鼓励

来自：小明

0 0

参与评论

登录后参与讨论 0/1000

下一篇陈根：生物特征识别，从指纹识别到咬牙识别

文／陈根众所周知，人类的生物特征通常具有...

2022-05-15

乐鑫语音之文字转语音

参与评论

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

乐鑫语音之文字转语音

参与评论

为你推荐

5G通话占道4G，你的5G套餐性价比真的高吗？

智能音箱行业正在爆发 语音成为重要入口

“端边云”架构如何解密AIoT时代的数据财富？

媳妇熬成婆？喜马拉雅上市愁愁愁！文本转语音技术有建树！

使用交互式人工智能（CAI）实现语音转录成本降低高达90%

AI「改造」鼠标，百度AI全面赋能罗技启示录

问界M7的智能座舱世界最好？智能座舱的这些趋势蕴藏哪些商机

罗技跨界百度AI，软硬一体打造杀手级产品

刘庆峰： 抢占人工智能赛道

AI芯天下丨盘点丨对话机器人行业发展内因

思必驰：AI赛道熄火，联想阿里集体减持

干货！2021年中国MCU行业龙头企业对比：兆易创新VS中颖电子VS乐鑫科技 谁是中国“MCU之王”？

智慧医疗“声”来早

阿里巴巴达摩院发布2019十大科技趋势：语音AI在特定领域通过图灵测试

汽车AI智能语音101及其供应链

赛点前变道换挡，思必驰能搭上“极米们”的顺风车吗？

不止Alexa和AWS，揭秘亚马逊人工智能发展史

思必驰的AI语音突围

对不起！这篇SVPWM来晚了！

融资 | 「一知智能」完成超亿元人民币B轮融资，助力算法开发，产品升级

中国智能家居企业出海远航，谁来提供“GPS锦囊”？

全球智能语音助手设备需求猛增，或引爆下半年芯片市场竞争

窄带专网通信锚定物联网市场：海能达CTO孙鹏飞详解PDT2.0

尝鲜！内窥镜方案抢先看！

【问题解决】老外ESP32TTS语音合成库AquesTalk ESP32测试成功

不止是语音助手 AI改造智能手机？

车外语音交互系统首发，长安欧尚进入Z世代

Adobe数字影音软件更新：PR新增智能语音转写，AE适配M1系列芯片

何小鹏说的智能化下一阶段，人类还有没有资格开车？

新基建背后的机器人布局：猎豹移动会握住“新船票”吗？

相关推荐

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

智能音箱行业正在爆发语音成为重要入口

刘庆峰：抢占人工智能赛道

干货！2021年中国MCU行业龙头企业对比：兆易创新VS中颖电子VS乐鑫科技谁是中国“MCU之王”？