[发明专利]语音处理方法、装置、电子设备及存储介质有效
申请号: | 202010090433.6 | 申请日: | 2020-02-13 |
公开(公告)号: | CN111326136B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 林炳怀;王丽园;邓锦 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04;G10L13/047;G10L13/10;G10L25/03 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 李娟 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 处理 方法 装置 电子设备 存储 介质 | ||
1.一种语音处理方法,其特征在于,包括:
将待处理语音转换为韵律学嵌入向量;
将所述韵律学嵌入向量分解为预设数量个基础嵌入GST,并根据所述预设数量个GST获得表征语音韵律特征的风格嵌入向量;
根据所述风格嵌入向量获得所述待处理语音对应的分类结果;
其中,所述分类结果包括至少一个,各个分类结果对应于不同的分类任务,针对每一个分类任务:
基于分类任务对应的分类器,根据所述风格嵌入向量获得所述待处理语音对应的分类结果,其中,所述分类器是基于所述分类任务对应的分类训练数据集对分类器进行训练获得的,所述分类训练数据集中的每个训练数据包括所述分类任务所属领域的一个语音数据和语音数据对应的分类标签。
2.根据权利要求1所述的方法,其特征在于,
基于已训练的韵律学编码器,将待处理语音转换为韵律学嵌入向量;
基于已训练的第一注意力模块,将所述韵律学嵌入向量分解为预设数量个基础嵌入GST,并根据所述预设数量个GST获得表征语音韵律特征的风格嵌入向量,其中:
所述已训练的韵律学编码器和所述已训练的第一注意力模块,是基于语音训练数据集训练语音合成模型而获得的,其中,所述语音训练数据集中包括多种分类任务的语音训练数据,每个语音训练数据包括一个训练语音和训练语音对应的文本,初始语音合成模型包括韵律学编码器、音特征提取模块、向量拼接模块、第一注意力模块、文本编码器、第二注意力模块和解码器。
3.根据权利要求1所述的方法,其特征在于,所述分类结果包括至少一个,各个分类结果对应于不同的分类任务,针对每一个分类任务:
基于分类任务对应的已训练的韵律学编码器,将待处理语音转换为韵律学嵌入向量;
基于所述分类任务对应的已训练的第一注意力模块,将所述韵律学嵌入向量分解为预设数量个基础嵌入GST,并根据所述预设数量个GST获得表征语音韵律特征的风格嵌入向量,其中:
所述已训练的韵律学编码器和所述已训练的第一注意力模块,是基于所述分类任务对应的领域训练数据集训练通用语音合成模型而获得的,其中,所述领域训练数据集中的每个训练数据包括分类任务所属领域的一个专用训练语音和专用训练语音对应的文本;
所述通用语音合成模型是基于通用训练数据集训练初始语音合成模型而获得的,其中,所述通用训练数据集中包括多种分类任务的训练数据,每个训练数据包括一个通用训练语音和通用训练语音对应的文本,所述初始语音合成模型包括韵律学编码器、音特征提取模块、向量拼接模块、第一注意力模块、文本编码器、第二注意力模块和解码器。
4.根据权利要求3所述的方法,其特征在于,所述基于分类任务对应的领域训练数据集训练通用语音合成模型的过程中,调整的参数包括:所述通用语音合成模型中的第一注意力模块的参数。
5.根据权利要求1所述的方法,其特征在于,所述基于所述分类任务对应的分类训练数据集对分类器进行训练,具体包括:
基于已训练的韵律学编码器将所述分类训练数据集中的各个语音数据转换为对应的韵律学嵌入向量;
基于已训练的第一注意力模块将每个语音数据对应的韵律学嵌入向量分解为预设数量个基础嵌入GST,并对所述预设数量个GST进行加权,获得每个语音数据对应的风格嵌入向量;
基于所述分类训练数据集中各个语音数据对应的风格嵌入向量和分类标签,训练所述分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010090433.6/1.html,转载请声明来源钻瓜专利网。