[发明专利]语音数据处理方法、装置、计算机设备及存储介质在审
申请号: | 202110662105.3 | 申请日: | 2021-06-15 |
公开(公告)号: | CN113823298A | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 阳珊;苏丹 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L19/16 | 分类号: | G10L19/16;G10L25/03;G10L25/51 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 张所明 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 数据处理 方法 装置 计算机 设备 存储 介质 | ||
本申请实施例公开了一种语音数据处理方法、装置、计算机设备及存储介质,属于计算机技术领域。该方法包括:调用语音编码模型,对样本语音数据进行编码,得到样本语音特征;调用语音解码模型,对样本语音特征进行解码,得到目标语音数据;调用语音判别模型,对目标语音数据进行判别,得到第一判别结果;根据样本语音数据与目标语音数据之间的差异以及第一判别结果,训练语音编码模型和语音解码模型。利用样本语音数据联合训练语音编码模型和语音解码模型,并且在训练过程中采用语音判别模型对语音编码模型和语音解码模型进行对抗训练,来提高语音编码模型和语音解码模型的准确性,从而保证对语音数据的处理效果。
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种语音数据处理方法、装置、计算机设备及存储介质。
背景技术
随着计算机技术和网络技术的发展,不同计算机设备之间能够进行语音数据的传输。为了提高传输效率,通常由发送端将语音数据进行压缩,然后向接收端发送压缩后的语音数据。但是压缩语音数据会造成语音数据的质量下降,导致接收端接收到的是有损语音数据。
为了解决上述问题,可以由发送端对语音数据进行滤波处理,从而在频域上提取语音数据的频谱特征等,然后将频谱特征发送给接收端,由接收端根据频谱特征来还原语音数据,但是语音还原的效果仍然不够好。
发明内容
本申请实施例提供了一种语音数据处理方法、装置、计算机设备及存储介质,能够提高语音数据处理的效果。所述技术方案如下:
一方面,提供了一种语音数据处理方法,所述方法包括:
调用语音编码模型,对样本语音数据进行编码,得到样本语音特征,所述语音编码模型用于在第一设备上对语音数据进行编码,以向第二设备发送编码得到的第一语音特征;
调用语音解码模型,对所述样本语音特征进行解码,得到目标语音数据;
调用语音判别模型,对所述目标语音数据进行判别,得到第一判别结果;
根据所述样本语音数据与所述目标语音数据之间的差异以及所述第一判别结果,训练所述语音编码模型和所述语音解码模型。
可选地,所述编码网络包括m个编码层,所述m为大于1的整数,所述调用所述编码网络,对所述样本语音数据进行编码,得到第二语音特征,包括:
调用第k个编码层,对所述样本语音数据进行编码,得到第k个编码语音特征,所述k为小于所述m的正整数;
继续调用所述第k个编码层的下一个编码层,对所述第k个编码语音特征进行编码,得到下一个编码语音特征,直至得到最后一个编码层输出的所述第二语音特征。
可选地,所述调用所述语音解码模型中的解码网络,对所述上下文特征进行解码,得到所述目标语音数据,包括:
调用所述解码网络,对所述上下文特征进行解码,得到具有目标特征的所述目标语音数据,所述目标特征用于描述接近未进行编码的语音数据应满足的特征。
可选地,所述解码网络包括n个解码层,所述n为大于1的整数,所述调用所述语音解码模型中的解码网络,对所述上下文特征进行解码,得到所述目标语音数据,包括:
调用第h个解码层,对所述上下文特征进行解码,得到第h个解码语音特征,所述h为小于所述n的正整数;
继续调用所述第h个解码层中的下一个解码层,对所述第h个解码语音特征进行解码,得到下一个解码语音特征,直至得到最后一个解码层输出的所述目标语音数据。
另一方面,提供了一种语音数据处理方法,所述方法包括:
调用语音编码模型,对语音数据进行编码,得到第一语音特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110662105.3/2.html,转载请声明来源钻瓜专利网。