[发明专利]语音处理方法、装置、电子设备及存储介质有效
申请号: | 202010090433.6 | 申请日: | 2020-02-13 |
公开(公告)号: | CN111326136B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 林炳怀;王丽园;邓锦 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04;G10L13/047;G10L13/10;G10L25/03 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 李娟 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 处理 方法 装置 电子设备 存储 介质 | ||
本申请涉及计算机技术领域,公开了一种语音处理方法、装置、电子设备及存储介质,涉及人工智能技术,利用人工智能中机器学习技术进行语音分类,所述方法包括:将待处理语音转换为韵律学嵌入向量,将韵律学嵌入向量分解为预设数量个基础嵌入GST,并根据预设数量个GST获得表征语音韵律特征的风格嵌入向量;根据风格嵌入向量获得待处理语音对应的分类结果。本申请实施例提供的语音处理方法、装置、电子设备及存储介质,有助于提高语音分类的准确度,且具有更好的通用性。
技术领域
本申请涉及计算机技术领域,尤其涉及一种语音处理方法、装置、电子设备及存储介质。
背景技术
现有的基于神经网络的语音分类方法通常是,将语音数据进行短时傅里叶变换,进而转换为相应的语谱图,然后基于音频的工程特性,从语谱图提取一组频域信息集合,作为输入神经网络的语音特征向量,进而得到分类结果。因此现有的语音分类方法,需要开发人员具备音频方面的专业知识,才能确定从语谱图提取哪些信息作为语音特征向量,且获提取语音特征向量的方法不具有通用性。
发明内容
本申请实施例提供一种语音处理方法、装置、电子设备及存储介质,有助于提高语音分类的准确度,且具有更好的通用性。
一方面,本申请一实施例提供了一种语音处理方法,包括:
将待处理语音转换为韵律学嵌入向量;
将所述韵律学嵌入向量分解为预设数量个基础嵌入GST,并根据所述预设数量个GST获得表征语音韵律特征的风格嵌入向量;
根据所述风格嵌入向量获得所述待处理语音对应的分类结果。
一方面,本申请一实施例提供了一种语音处理方法,包括:
获取用户输入的待处理语音,并发送给后台服务器,以使所述后台服务器获得所述待处理语音对应的至少一个分类任务对应的分类结果;
接收并展示所述后台服务器发送的分类结果;
将用户针对展示的分类结果输入的用户反馈信息发送给所述后台服务器,以使所述后台服务器基于所述用户反馈信息确定针对所述用户的个性化服务内容;
接收所述后台服务器发送的所述个性化服务内容。
可选地,所述方法还包括:若未触发任一修正按钮,则确定所述用户反馈信息为不需要修正分类结果。
一方面,本申请一实施例提供了一种语音特征提取模型的训练方法,包括:
基于通用训练数据集训练初始语音合成模型,获得通用语音合成模型,其中,所述通用训练数据集中包括多种分类任务的训练数据,每个训练数据包括一个通用训练语音和通用训练语音对应的文本,所述初始语音合成模型包括韵律学编码器、语音特征提取模块、向量拼接模块、第一注意力模块、文本编码器、第二注意力模块和解码器;
基于分类任务对应的领域训练数据集训练所述通用语音合成模型,获得所述分类任务对应的专用语音合成模型,其中,所述领域训练数据集中的每个训练数据包括所述分类任务所属领域的一个专用训练语音和专用训练语音对应的文本;
基于所述专用语音合成模型,获得所述分类任务对应的用于提取风格嵌入向量的语音特征提取模型,所述语音特征提取模型包括所述专用语音合成模型中的韵律学编码器和第一注意力模块。
一方面,本申请一实施例提供了一种语音处理装置,包括:
韵律学模块,用于将待处理语音转换为韵律学嵌入向量;
风格确定模块,用于将所述韵律学嵌入向量分解为预设数量个基础嵌入GST,并根据所述预设数量个GST获得表征语音韵律特征的风格嵌入向量;
分类模块,用于根据所述风格嵌入向量获得所述待处理语音对应的分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010090433.6/2.html,转载请声明来源钻瓜专利网。