[发明专利]一种将文本转换成语音的方法、系统、装置和存储介质有效
申请号: | 202010079855.3 | 申请日: | 2020-02-04 |
公开(公告)号: | CN111145720B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 叶俊杰;李权;王伦基;黄桂芳;任勇;韩蓝青 | 申请(专利权)人: | 清华珠三角研究院;赛业(广州)生物科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/033;G10L25/24;G10L25/03;G10L25/30;G10L25/60 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 何文聪 |
地址: | 510530 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 转换 成语 方法 系统 装置 存储 介质 | ||
1.一种将文本转换成语音的方法,其特征在于,包括以下步骤:
获取测试文本和待迁移语音;
获取所述测试文本的发音编码;
使用经过训练的语音风格编码器,获取所述待迁移语音的风格编码;
将所述发音编码和风格编码进行拼接;
使用语音解码器对所述拼接的结果进行解码,从而获得语音;
所述将文本转换成语音的方法还包括以下用于对所述语音风格编码器进行训练的步骤:
建立训练集;所述训练集中包括多段由不同人使用不同语言讲述的样本语音;
将各所述样本语音按照所属语言进行分组;
将属于同组的各所述样本语音逐个输入到所述语音风格编码器;
在一组所述样本语音的输入过程中,将所述语音风格编码器的输入值和输出值进行比较,根据所述输入值和输出值计算损失函数,根据所述损失函数调整所述语音风格编码器中的各权重参数,直至所述损失函数收敛,则停止这一组所述样本语音的输入过程,开始下一组所述样本语音的输入过程。
2.根据权利要求1所述的方法,其特征在于,所述获取所述测试文本的发音编码这一步骤,包括:
对所述测试文本进行分句和分词处理;
将所述测试文本中的数字转换成以预设的主语言表达的形式;
将所述测试文本中的小写字母转换成相应的大写字母;
将所述测试文本中的各词语转换成所属语言的相应拼音字符;
向所述测试文本中的相邻各词语之间添加分隔符;所述分隔符的形式与其所分隔的词语所属的语言相关;
将所述测试文本输入到基于注意力机制的自编码模型中,接收所述自编码模型输出的所述发音编码。
3.根据权利要求2所述的方法,其特征在于,所述将所述测试文本的各词语转换成所述语言的相应拼音字符这一步骤,包括:
对所述测试文本的各词语所属语言进行识别;
将属于中文的词语转换成相应的现代拼音字母;
将属于英文的词语转换成相应的CMU发音字符。
4.根据权利要求1-3任一项所述的方法,其特征在于,还包括以下用于对所述语音风格编码器进行训练的步骤:
建立训练集;所述训练集中包括多段分别由不同人使用不同语言讲述的样本语音;
将各所述样本语音逐个输入到所述语音风格编码器;
在所述样本语音的输入过程中,将所述语音风格编码器的输入值和输出值进行比较,根据所述输入值和输出值计算损失函数,根据所述损失函数调整所述语音风格编码器中的各权重参数,直至所述损失函数收敛,则停止所述样本语音的输入过程。
5.根据权利要求1所述的方法,其特征在于,还包括以下用于对解码所得的语音进行质量检查的步骤:
获取所述语音解码器的解码时间;
在所述解码时间与所述拼接的结果对齐的情况下,将解码所得的语音判断为合格,反之则为不合格。
6.根据权利要求1所述的方法,其特征在于,所述语音风格编码器为Tacotron模型;所述语音解码器为Griffin-Lim模型或WaveNet模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华珠三角研究院;赛业(广州)生物科技有限公司,未经清华珠三角研究院;赛业(广州)生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010079855.3/1.html,转载请声明来源钻瓜专利网。