[发明专利]音频处理方法、装置、电子设备和计算机可读存储介质在审
申请号: | 202110610926.2 | 申请日: | 2021-06-01 |
公开(公告)号: | CN113345446A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 刘峰;陀得意;康世胤;游于人 | 申请(专利权)人: | 广州虎牙科技有限公司 |
主分类号: | G10L19/00 | 分类号: | G10L19/00;G10L25/30;G10L25/87 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 张欣欣 |
地址: | 511495 广东省广州市番禺*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 处理 方法 装置 电子设备 计算机 可读 存储 介质 | ||
本发明的实施例提供了一种音频处理方法、装置、电子设备和计算机可读存储介质,涉及数据处理技术领域,方法包括:对待编码音频数据进行预处理,得到目标音频数据,通过对目标音频数据进行端点检测获得目标音频数据中每种类型的音频数据的起始点和终止点。提取每种类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息。进而对目标音频数据中设定类型的音频数据的采样点信息进行加速处理,基于设定类型的音频数据加速处理后的采样点信息,其他类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息,提取得到内容表征信息,从而提高音频压缩率。
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种音频处理方法、装置、电子设备和计算机可读存储介质。
背景技术
人类能够听到的所有声音都称之为音频,它可能包括噪音等。声音被录制下来以后,无论是说话声、歌声、乐器都可以通过数字音频软件进行处理。音频的处理方式多种多样,其中,很多场景下都需要进行音频压缩。经研究发现,目前市面上的音频压缩大多采用信号编码相关的技术方案,类似的方案实现简单,压缩解压速度较快,但面临压缩率不够的缺点。
发明内容
本发明的目的之一包括,例如,提供了一种音频处理方法、装置、电子设备和计算机可读存储介质,以至少部分地提高音频的压缩率。
本发明的实施例可以这样实现:
第一方面,本发明提供一种音频处理方法,包括:
对待编码音频数据进行预处理,得到目标音频数据;
对所述目标音频数据进行端点检测,获得所述目标音频数据中每种类型的音频数据的起始点和终止点;
提取每种类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息;
对所述目标音频数据中设定类型的音频数据的采样点信息进行加速处理;
基于所述设定类型的音频数据加速处理后的采样点信息,其他类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息,提取得到内容表征信息。
在可选的实施方式中,提取得到内容表征信息的步骤,包括:
调用神经网络模型,所述神经网络模型包括采样层、全连接层和循环神经网络;
将所述设定类型的音频数据加速处理后的采样点信息、其他类型的音频数据的采样点信息,以及每种类型的音频数据的起始点和终止点的时间戳信息输入所述采样层,对所述加速处理后的采样点信息进行信息抽取,获得响度信息、音高信息和内容信息,并对所述响度信息、音高信息和内容信息进行降采样,得到降采样后的响度信息、音高信息和内容信息;
将降采样后的响度信息、音高信息和内容信息输入所述全连接层进行融合;
将融合后的信息输入所述循环神经网络进行处理,得到内容表征信息。
在可选的实施方式中,所述音频数据的类型包括人声、噪声和静音,所述设定类型的音频数据为人声数据;
所述人声数据的采样点信息为对所述人声数据的幅值的连续表达;静音数据的采样点信息为用于表征所述静音数据的设定数量个幅值;噪声数据的采样点信息为用于表征所述噪声数据的设定数量个幅值。
在可选的实施方式中,所述对待编码音频数据进行预处理,得到目标音频数据的步骤,包括:
将待编码音频数据进行重采样;
将重采样后的待编码音频数据进行降噪和去混响,得到目标音频数据。
第二方面,本发明实施例提供一种音频处理方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州虎牙科技有限公司,未经广州虎牙科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110610926.2/2.html,转载请声明来源钻瓜专利网。