[发明专利]一种模型训练及语音合成方法、装置、设备和介质在审
申请号: | 202010668214.1 | 申请日: | 2020-07-13 |
公开(公告)号: | CN111883101A | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 康永国 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G10L13/047 | 分类号: | G10L13/047;G10L25/30;G06N3/04;G06N3/08 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 训练 语音 合成 方法 装置 设备 介质 | ||
1.一种模型训练方法,所述方法包括:
获取训练数据集中的样本文本;
基于预先采用无监督的训练方法训练出的声学模型,确定所述样本文本对应的标签信息;其中,所述标签信息包括风格信息和/或角色信息;
基于所述样本文本以及所述样本文本对应的标签信息,对文本分类模型进行训练;其中,所述文本分类模型用于根据输入的文本输出对应的标签信息。
2.根据权利要求1所述的方法,其中,所述声学模型的训练方法包括:
获取所述训练数据集中的训练数据,所述训练数据包括样本文本的文本特征和所述样本文本对应的语音数据;
采用无监督的训练方法,基于所述训练数据对预先构建的声学模型进行训练,以建立文本特征与声学特征之间的映射关系,并获得按照风格和/或角色对所述训练数据进行聚类的聚类结果。
3.根据权利要求2所述的方法,其中,所述聚类结果包括各语音数据分别对应的标签信息;基于预先采用无监督的训练方法训练出的声学模型,确定所述样本文本对应的标签信息,包括:
将所述样本文本对应的语音数据输入训练出的所述声学模型,获得所述声学模型输出的所述样本文本对应的标签信息。
4.根据权利要求1-3中任一项所述的方法,其中,所述样本文本的生成方法包括:
获取预设数量的真人语音数据,对各所述真人语音数据执行去除背景音乐和/或噪声的操作;
对各所述真人语音数据进行切分,并获取切分后每条语音数据分别对应的文本,作为样本文本。
5.根据权利要求4所述的方法,其中,所述真人语音数据包括:文学载体的真人语音播报数据。
6.一种语音合成方法,所述方法包括:
将待合成文本输入到预先训练出的文本分类模型,获得所述分类模型输出的所述待合成文本对应的标签信息;其中,所述标签信息包括风格信息和/或角色信息;所述文本分类模型是使用权利要求1-5任一项所述的模型训练方法训练出的模型;
将所述待合成文本的文本特征以及所述待合成文本对应的标签信息,输入到预先采用无监督的训练方法训练出的声学模型,获得所述声学模型输出的所述文本特征和所述标签信息对应的声学特征;
基于所述声学特征对所述待合成文本进行语音合成,获得所述待合成文本对应的语音数据。
7.根据权利要求6所述的方法,其中,所述待合成文本包括:待合成的文学载体文本。
8.一种模型训练装置,所述装置包括:
样本文本获取模块,用于获取训练数据集中的样本文本;
标签信息确定模块,用于基于预先采用无监督的训练方法训练出的声学模型,确定所述样本文本对应的标签信息;其中,所述标签信息包括风格信息和/或角色信息;
文本分类模型训练模块,用于基于所述样本文本以及所述样本文本对应的标签信息,对文本分类模型进行训练;其中,所述文本分类模型用于根据输入的文本输出对应的标签信息。
9.根据权利要求8所述的装置,其中,所述声学模型的训练方法包括:
获取所述训练数据集中的训练数据,所述训练数据包括样本文本的文本特征和所述样本文本对应的语音数据;
采用无监督的训练方法,基于所述训练数据对预先构建的声学模型进行训练,以建立文本特征与声学特征之间的映射关系,并获得按照风格和/或角色对所述训练数据进行聚类的聚类结果。
10.根据权利要求9所述的装置,其中,所述聚类结果包括各语音数据分别对应的标签信息;所述标签信息确定模块,具体用于:
将所述样本文本对应的语音数据输入训练出的所述声学模型,获得所述声学模型输出的所述样本文本对应的标签信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010668214.1/1.html,转载请声明来源钻瓜专利网。