[发明专利]带语气的语音合成方法、装置、计算设备及存储介质有效

申请号：	201911394275.7	申请日：	2019-12-30
公开（公告）号：	CN111161703B	公开（公告）日：	2023-06-30
发明（设计）人：	徐建明	申请（专利权）人：	达闼机器人股份有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;G10L13/047;G10L13/08;G10L13/10;G06F40/279
代理公司：	深圳市爱迪森知识产权代理事务所(普通合伙) 44341	代理人：	何婷
地址：	201111 上***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语气语音合成方法装置计算设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种带语气的语音合成方法，其特征在于，所述语音合成方法包括：

根据分句标志对原始文本进行分句；

应用已训练的语气分类模型对原始文本进行分类，获取语气分类信息；

根据所述语气分类信息和已分句的所述原始文本应用已训练的语音合成模型生成带有语气的语音数据；

在所述应用语气分类模型对文本进行分类之前，包括：

对所述语气分类模型进行训练，得到已训练的所述语气分类模型；

对所述语音合成模型进行训练，得到已训练的所述语音合成模型；

所述对所述语音合成模型进行训练，获取已训练的所述语音合成模型，包括：

制作语音生成语料库，并将所述语音生成语料库分为测试集和验证集；

根据所述测试集对所述语音合成模型进行训练，直至训练的音频数据满足第二验证条件，获取对应的所述语音合成模型的参数，其中，所述语音合成模型包括：编码器、连接器、解码器和声码器，所述编码器对第二文本进行编码处理，所述连接器将编码处理后的所述第二文本与对应的语气分类结果进行连接，所述解码器对连接后的所述第二文本与对应的所述语气分类结果进行解码处理，解码处理后的所述第二文本与对应的所述语气分类结果进行梅尔倒频谱处理后通过所述声码器输出语音数据，所述语音合成模型的参数包括：嵌入的维度、训练积集的批量大小和学习率，使用准确率、平均意见值作为所述第二验证条件；

根据所述验证集对所述参数对应的所述语音合成模型进行验证，得到已训练的所述语音合成模型；

所述制作语音生成语料库，包括：

收集包括预设数量的日常用语的第二文本；

应用已训练的所述语气分类模型对所述第二文本进行语气分类，获取语气分类结果；

根据所述语气分类结果对所述第二文本增加对应的语气标签，形成带有语气标签的语音生成语料库；

所述对所述语气分类模型进行训练，得到已训练的所述语气分类模型，包括：

制作语气分类语料库，并将所述语气分类语料库分为测试集和验证集；

对所述语气分类语料库进行预处理；

将所述测试集输入文本分类模型进行分类，形成语气分类标签，直至训练的语气分类标签结果满足第一验证条件，获取对应的所述语气分类模型的参数，所述文本分类模型应用Text-CNN，所述Text-CNN包括：输入层、卷积层、池化层以及全连接层，使用准确率、F1值和召回率作为所述第一验证条件；

根据所述验证集对所述参数对应的所述语气分类模型进行验证，得到已训练的所述语气分类模型。

2.如权利要求1所述的带语气的语音合成方法，其特征在于，所述制作语气分类语料库，包括：

收集包括预设数量的日常用语的第一文本；