[发明专利]一种中英文混合的语音合成方法及装置有效
申请号: | 202011040833.2 | 申请日: | 2020-09-28 |
公开(公告)号: | CN112151005B | 公开(公告)日: | 2022-08-19 |
发明(设计)人: | 王昆;朱海;周琳珉;刘书君;展华益 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08;G10L19/16 |
代理公司: | 四川省成都市天策商标专利事务所(有限合伙) 51213 | 代理人: | 张秀敏 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中英文 混合 语音 合成 方法 装置 | ||
1.一种中英文混合的语音合成方法,其特征在于:包括训练阶段和推理阶段,所述训练阶段包括以下步骤:
S11.获取多人中、英文语音训练数据,并提取语音声学特征,得到训练数据集;
S12.对英文文本规范化处理,并通过CMU发音字典将英文文本转换为CMU发音音素,再将CMU发音音素转换为拼音音素;
S13.对中文文本规范化处理,并结合韵律分析,将中文汉字转换为拼音音素;
S14.对训练数据集生成代表所属语言类别的语言标记以及对应说话人识别向量;
S15.将转换为拼音音素的文本、语言标记、语音声学特征、说话人识别向量,共同输入到语音合成模型进行训练,得到训练好的语音合成模型;
所述推理阶段包括以下步骤:
S21.对待合成文本进行规范化处理,并对中英文进行区分,得到中文文本和英文文本;
S22.对步骤S21得到的中文文本采用韵律分析,并将中文汉字转换为拼音音素;
S23.将步骤S21得到的英文文本转换为CMU发音音素,再将CMU发音音素映射为拼音音素;
S24.对待合成文本生成代表所属语言类别的语言标记以及对应说话人识别向量;
S25.将处理为拼音音素的文本、语言标记、说话人识别向量,共同输入到训练好的语音合成模型,输出声学特征;
S26.将步骤S25得到的声学特征经声码器输出音频。
2.根据权利要求1所述的中英文混合的语音合成方法,其特征在于:在步骤S11中:
中、英文的语音训练数据包括:中文语音数据以及对应的中文文本,英文语音数据以及对应的英文文本,中英文混合的语音数据以及对应的中英文混合文本;提取的语音声学特征包括梅尔频谱特征。
3.根据权利要求1所述的中英文混合的语音合成方法,其特征在于:在步骤S12中:
对非法字符进行剔除;将英文文本统一为ASCII编码;将英文字符统一为小写字母;对英文缩写进行单词拓展;利用CMU发音字典将每个英文单词转换为CMU的发音音素,若单词不在CMU的字典,则将该句文本以及对应的语音从训练数据剔除;创建CMU发音音素与拼音音素的映射字典;通过映射字典将CMU发音音素转换为拼音音素。
4.根据权利要求1所述的中英文混合的语音合成方法,其特征在于:在步骤S13中:
对中文文本进行规范化处理,筛选出非法字符,对合法输入进行分词、词性标注,并将提取的综合语言学特征输入到韵律预测模型,获得停顿级别标注;将中文汉字转换为拼音标记,再将拼音标记转换为对应的拼音音素。
5.根据权利要求1所述的中英文混合的语音合成方法,其特征在于:在步骤S14中:
语言标记的长度与转换为音素后的文本步长一致;属同一类语言的语音数据其标记的值相等;特殊字符采取其他标记;说话人识别向量由经过预训练的多说话人识别模型生成,用于编码说话人信息。
6.根据权利要求1所述的中英文混合的语音合成方法,其特征在于:在步骤S15中:
文本对应的语音声学特征包括梅尔频谱特征;经处理的拼音音素文本经过词嵌入网络层生成了文本向量,将文本向量与语言标记一起输入到编码层网络;再将编码层网络的输出与说话人识别向量一起输入到解码层网络,最后输出声学特征;模型网络结构包括但不限于目前主流的端到端Tacotron模型。
7.根据权利要求1所述的中英文混合的语音合成方法,其特征在于:在步骤S21-S25中:
推理阶段的语音合成模型参数由训练阶段得到,并且网络结构一致;推理阶段的中、英文语音文本的处理方式与训练阶段一致,不同点在于,若文本中的英文单词不存在于CMU发音字典,则将该单词看作分开的英文字母,并将英文字母转换为CMU发音字典,进而转换为拼音音素。
8.根据权利要求1所述的中英文混合的语音合成方法,其特征在于:在步骤S26中:
采用的声码器包括WaveNET、WavRNN、MelGAN。
9.一种中英文混合的语音合成装置,其特征在于,所述装置通过权利要求1所述的方法实现中英文混合的语音合成,所述装置包括:
文本处理模块,用于将中英文文本规范化处理,并且转换为统一的拼音音素表达方式;
信息编码模块,用于对中、英文生成代表不同所属语言类别的语言标记以及对应说话人的说话人识别向量;
声学特征输出模块,用于输入经处理为拼音音素的文本、语言标记、说话人识别向量,输出语音的声学特征;
声码器模块,用于输入语音的声学特征,输出音频;
所述装置利用CMU发音字典以及CMU发音与拼音音素的映射字典,将文本统一为拼音音素表达方式;同时为了区别中、英文发音特征,加入了区别语言的语言标记;为了区别说话人特征,加入了代表说话人信息的说话人识别向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011040833.2/1.html,转载请声明来源钻瓜专利网。