[发明专利]带语气的语音合成方法、装置、计算设备及存储介质有效
申请号: | 201911394275.7 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111161703B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 徐建明 | 申请(专利权)人: | 达闼机器人股份有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/047;G10L13/08;G10L13/10;G06F40/279 |
代理公司: | 深圳市爱迪森知识产权代理事务所(普通合伙) 44341 | 代理人: | 何婷 |
地址: | 201111 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语气 语音 合成 方法 装置 计算 设备 存储 介质 | ||
1.一种带语气的语音合成方法,其特征在于,所述语音合成方法包括:
根据分句标志对原始文本进行分句;
应用已训练的语气分类模型对原始文本进行分类,获取语气分类信息;
根据所述语气分类信息和已分句的所述原始文本应用已训练的语音合成模型生成带有语气的语音数据;
在所述应用语气分类模型对文本进行分类之前,包括:
对所述语气分类模型进行训练,得到已训练的所述语气分类模型;
对所述语音合成模型进行训练,得到已训练的所述语音合成模型;
所述对所述语音合成模型进行训练,获取已训练的所述语音合成模型,包括:
制作语音生成语料库,并将所述语音生成语料库分为测试集和验证集;
根据所述测试集对所述语音合成模型进行训练,直至训练的音频数据满足第二验证条件,获取对应的所述语音合成模型的参数,其中,所述语音合成模型包括:编码器、连接器、解码器和声码器,所述编码器对第二文本进行编码处理,所述连接器将编码处理后的所述第二文本与对应的语气分类结果进行连接,所述解码器对连接后的所述第二文本与对应的所述语气分类结果进行解码处理,解码处理后的所述第二文本与对应的所述语气分类结果进行梅尔倒频谱处理后通过所述声码器输出语音数据,所述语音合成模型的参数包括:嵌入的维度、训练积集的批量大小和学习率,使用准确率、平均意见值作为所述第二验证条件;
根据所述验证集对所述参数对应的所述语音合成模型进行验证,得到已训练的所述语音合成模型;
所述制作语音生成语料库,包括:
收集包括预设数量的日常用语的第二文本;
应用已训练的所述语气分类模型对所述第二文本进行语气分类,获取语气分类结果;
根据所述语气分类结果对所述第二文本增加对应的语气标签,形成带有语气标签的语音生成语料库;
所述对所述语气分类模型进行训练,得到已训练的所述语气分类模型,包括:
制作语气分类语料库,并将所述语气分类语料库分为测试集和验证集;
对所述语气分类语料库进行预处理;
将所述测试集输入文本分类模型进行分类,形成语气分类标签,直至训练的语气分类标签结果满足第一验证条件,获取对应的所述语气分类模型的参数,所述文本分类模型应用Text-CNN,所述Text-CNN包括:输入层、卷积层、池化层以及全连接层,使用准确率、F1值和召回率作为所述第一验证条件;
根据所述验证集对所述参数对应的所述语气分类模型进行验证,得到已训练的所述语气分类模型。
2.如权利要求1所述的带语气的语音合成方法,其特征在于,所述制作语气分类语料库,包括:
收集包括预设数量的日常用语的第一文本;
获取人工对所述第一文本中预设数量的所述日常用语标注的语气类型;
合并所述第一文本以及标注的所述语气类型,形成所述语气分类语料库。
3.如权利要求1所述的带语气的语音合成方法,其特征在于,所述对所述语气分类语料库进行预处理,包括:
剔除所述第一文本中无意义的符号信息和冗余信息;
使用结巴分词对所述第一文本中的语料进行分词;
使用词向量工具将分词后的所述第一文本转化为词向量序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达闼机器人股份有限公司,未经达闼机器人股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911394275.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种适用于短视频推荐打散的分类方法及系统
- 下一篇:一种菜品图像背景剥离方法