[发明专利]一种语音压缩、解压缩方法、装置和电子设备在审
申请号: | 201911260327.1 | 申请日: | 2019-12-10 |
公开(公告)号: | CN110942782A | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 文仕学 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G10L21/0388 | 分类号: | G10L21/0388;G10L21/04;G06N3/08;G06N3/02 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 郑傲日 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 压缩 解压缩 方法 装置 电子设备 | ||
本发明实施例提供了一种语音压缩、解压缩方法、装置和电子设备,其中,所述语音压缩方法包括:获取原始语音数据;依据编码神经网络对所述原始语音数据进行频域压缩和/或时域压缩,得到压缩语音数据;由于采用训练数据即可以训练神经网络学习到丢弃语音数据中哪些频率分量,而无需运用声学领域知识,进而本发明实施例设计用于语音数据压缩的编码器难度更小,从而能够实现设计难度小的编码器进行语音数据的压缩。
技术领域
本发明涉及数据处理技术领域,特别是涉及一种语音压缩、解压缩方法、装置和电子设备。
背景技术
随着科学技术的不断发展,语音采集设备的采样能力也随之提高,使得采集的语音数据所占空间也越来越大。为了便于语音数据的存储和传输,可以将语音数据进行压缩。
其中,有损压缩是常用的压缩方式之一。有损压缩是采用有损压缩编码器(如mp3(MPEGAudio Layer 3,动态影像专家压缩标准音频层面)编码器)通过丢弃原始语音数据中的部分数据(例如丢弃人耳不敏感的频带/频率对应的分量)实现的。而人耳对哪些频带或频率不敏感,需要运用声学领域知识确定,使得有损压缩编码器设计难度大。
发明内容
本发明实施例提供一种语音压缩方法,以采用设计难度小的编码器进行语音数据的压缩。
本发明实施例还提供一种语音解压方法,以对采用上述语音压缩方法压缩的语音数据进行解压。
相应的,本发明实施例还提供了一种语音压缩、解压缩装置和一种电子设备,用以保证上述方法的实现及应用。
为了解决上述问题,本发明实施例公开了一种语音压缩方法,具体包括:获取原始语音数据;依据编码神经网络对所述原始语音数据进行频域压缩和/或时域压缩,得到压缩语音数据。
可选地,所述频域压缩,包括:对所述原始语音数据进行频域变换,得到所述原始语音数据对应的语谱矩阵;将所述原始语音数据对应的语谱矩阵输入至所述编码神经网络中,得到所述编码神经网络输出的频域压缩语音数据。
可选地,所述时域压缩,包括:将所述原始语音数据输入至所述编码神经网络中,得到所述编码神经网络输出的时域压缩语音数据。
可选地,所述的方法还包括训练所述编码神经网络的步骤:获取训练语音数据;依据所述编码神经网络对所述训练语音数据进行频域压缩和/或时域压缩,得到压缩语音数据;依据解码神经网络对所述压缩语音数据进行频域解压缩和/或时域解压缩,得到解压缩语音数据;将所述解压缩语音数据和训练语音数据进行比对,对所述编码神经网络的权重进行调整。
本发明实施例还公开了一种语音压缩装置,具体包括:第一获取模块,用于获取原始语音数据;压缩模块,用于依据编码神经网络对所述原始语音数据进行频域压缩和/或时域压缩,得到压缩语音数据。
可选地,所述压缩模块,包括:频域压缩子模块,用于对所述原始语音数据进行频域变换,得到所述原始语音数据对应的语谱矩阵;将所述原始语音数据对应的语谱矩阵输入至所述编码神经网络中,得到所述编码神经网络输出的频域压缩语音数据。
可选地,所述压缩模块,包括:时域压缩子模块,用于将所述原始语音数据输入至所述编码神经网络中,得到所述编码神经网络输出的时域压缩语音数据。
可选地,所述的装置还包括:第一训练模块,用于获取训练语音数据;依据所述编码神经网络对所述训练语音数据进行频域压缩和/或时域压缩,得到压缩语音数据;依据解码神经网络对所述压缩语音数据进行频域解压缩和/或时域解压缩,得到解压缩语音数据;将所述解压缩语音数据和训练语音数据进行比对,对所述编码神经网络的权重进行调整。
本发明实施例还公开了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如本发明实施例任一所述的语音压缩方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911260327.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种节能型热风循环烘干设备
- 下一篇:一种基于视频的信息叠加方法