[发明专利]嵌入式语音合成方法、装置以及控制器和介质有效
申请号: | 201911157037.4 | 申请日: | 2019-11-22 |
公开(公告)号: | CN110808028B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 郑杰文 | 申请(专利权)人: | 芋头科技(杭州)有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04;G10L13/08 |
代理公司: | 北京市竞天公诚律师事务所 11770 | 代理人: | 陈果 |
地址: | 310000 浙江省杭州市余杭区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 嵌入式 语音 合成 方法 装置 以及 控制器 介质 | ||
本发明涉及一种嵌入式语音合成方法、装置以及控制器和介质,所述方法包括获取嵌入式设备的待播放文本信息;从所述嵌入式设备的数据库中获取所述待播放文本信息对应的多个语言学特征树;根据所述待播放文本信息的文本排序将所述多个语言学特征树合并为一个目标语言学特征树;将所述目标语言学特征树合成为语音。本发明减小了在嵌入式设备上所需占用的存储空间,提高了嵌入式语音合成的质量。
技术领域
本发明涉及语音处理技术领域,尤其涉及一种嵌入式语音合成方法、装置以及控制器和介质。
背景技术
嵌入式设备合成在很多场景下不需要任意文字的合成,通常只需要做相关领域文本的合成,嵌入式系统计算资源和存储资源相较云端要少很多,在少量资源下,必须要妥协文本转语音(也称为语音合成,英文简称TTS)的质量才可以做到完全离线。由此可知,现有技术中,在没有网络的情况下,若要在嵌入式设备上实现一套高质量的TTS依然较为困难。
语音合成引擎通常可分为前端引擎和后端引擎,前端可以理解为将字符映射为音素等一些人工的语言学特征,后端将这些特征转化为原始波形输出。
现有的嵌入式语音合成技术中,为了减少占用嵌入式设备的计算资源和存储资源,通常把合成引擎压缩到嵌入式设备中,压缩后的合成引擎由于对算法和存储数据的裁剪,将导致声音合成的质量下降。此外,为了合成领域内的声音,会把预先录制好的声音片段放到嵌入式设备之中,合成时使用算法挑选出相关声音片段再拼接到一起。由此可知,现有嵌入式语音合成技术至少具有以下缺点:第一、嵌入式设备上存储声音片段依然要占用较多存储空间,第二、拼接出的声音不够自然。
发明内容
本发明目的在于,提供一种嵌入式语音合成方法、装置以及控制器和介质,减小了在嵌入式设备上所需占用的存储空间,提高了嵌入式语音合成的质量。
为了解决上述技术问题,根据本发明的一方面,提供了一种嵌入式语音合成方法,包括:
获取嵌入式设备的待播放文本信息;
从所述嵌入式设备的数据库中获取所述待播放文本信息对应的多个语言学特征树;
根据所述待播放文本信息的文本排序将所述多个语言学特征树合并为一个目标语言学特征树;
将所述目标语言学特征树合成为语音。
进一步的,所述方法还包括:
编写业务场景对应的话术模板,所述话术模板包括至少一个固定部分和/或至少一个变化部分,每一所述固定部分对应一个固定的文本信息,每一所述变化部分对应多个可选的文本信息中的其中一个;
将每一所述固定部分和变化部分对应生成一个语言学特征树,并存储至数据库中;
将所述数据库导入嵌入式设备中。
进一步的,所述将每一所述固定部分和变化部分对应生成一个语言学特征树的过程在云端进行。
进一步的,所述生成一个语言学特征树,包括:
将文本信息中的罗马数字转换为汉字;
对转换后的文本信息的汉字做分词处理,并为每个词预测词性;
预测所述转换后的文本信息中发音停顿的位置;
为所述转换后的文本信息的每个汉字注上拼音;
采用树的结构将所述转换后的文本信息的汉字、每个词的词性、发音停顿的位置以及每个汉字的拼音保存起来,生成语言学特征树。
进一步的,从所述嵌入式设备的数据库中获取所述待播放文本信息对应的多个语言学特征树,包括:
根据所述待播放文本信息确定对应的目标话术模板;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于芋头科技(杭州)有限公司,未经芋头科技(杭州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911157037.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种包装薄膜生产用收卷机构
- 下一篇:一种稀土电解槽的烟尘回收系统及回收方法