[发明专利]音频处理方法、装置、存储介质及设备在审
申请号: | 202111647327.4 | 申请日: | 2021-12-29 |
公开(公告)号: | CN114299981A | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 郑佳欢;向勇;关迎辉;张海平;云龙 | 申请(专利权)人: | 中国电信股份有限公司 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L25/03;G10L25/30 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 孙宝海;李建忠 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 处理 方法 装置 存储 介质 设备 | ||
本公开的实施例公开了一种音频处理方法、装置、存储介质及设备,本公开的实施例提供的音频处理方法,通过对待处理音频数据进行主语音特征提取,以及对待处理音频数据进行噪音特征提取;对主语音特征提取过程中的中间主语音特征以及噪音特征提取过程中的中间噪音特征进行特征相互交互,以对中间主语音特征进行语音强化处理,对中间噪音特征进行噪音弱化处理,提高了对待处理音频数据的噪音提取效果和语音提取效果。根据主语音特征提取得到的目标主语音特征以及根据噪音特征提取得到的目标噪音特征,生成去噪强音的音频数据,以更好地区分语音信息和噪音信息,进而可以精准地对噪音信息进行有效弱化,也可以很好的保留并强化语音信息的特征。
技术领域
本公开涉及人工智能技术领域,具体而言,涉及一种音频处理方法、装置、存储介质及设备。
背景技术
在日常生活中,很多音频数据都携带有噪音,这不仅会影响用户的听觉体验,还会影响计算机设备对音频数据进行语音识别的效果。
语音识别(Automatic Speech Recognition,简称ASR)是一种在生活中获得广泛应用语音处理技术,它通过技术手段将语音转成文字信息,可方便机器系统获取语音的意图,或方便人们获取语音对应的文字内容。在进行语音识别时,待识别语音除了说话者本身的纯净语音外还可能存在噪音,这使得从带噪语音中提取的语音特征存在噪音的语音特征,极大的影响了语音识别的准确性,降低了语音识别服务的用户体验。
因此,如何对带噪语音进行去噪处理以及语音强化处理成为本领域技术人员亟待解决的问题。
发明内容
本公开提供了一种音频处理方法、装置、存储介质及设备,以对带噪语音中的噪音进行过滤,并对带噪语音中的语音进行强化,得到纯净的语音信息。
根据本公开实施例的第一方面,提供了一种音频处理方法,该方法包括:获取待处理音频数据;对待处理音频数据进行主语音特征提取,以及对待处理音频数据进行噪音特征提取;对主语音特征提取过程中的中间主语音特征以及噪音特征提取过程中的中间噪音特征进行特征交互,并根据得到的音频特征对中间主语音特征进行语音强化处理,以及对中间噪音特征进行噪音弱化处理;根据主语音特征提取得到的目标主语音特征以及根据噪音特征提取得到的目标噪音特征,生成去噪强音的音频数据。
在一些实施例中,音频处理模型包括特征提取网络、交互网络以及融合网络;对待处理音频数据进行主语音特征提取,以及对待处理音频数据进行噪音特征提取,包括:将待处理音频数据输入特征提取网络的第一分支网络进行主语音特征提取,以及将待处理音频数据输入特征提取网络的第二分支网络进行噪音特征提取;对主语音特征提取过程中的中间主语音特征以及噪音特征提取过程中的中间噪音特征进行特征交互,并根据得到的音频特征对中间主语音特征进行语音强化处理,包括:将主语音特征提取过程中的中间主语音特征以及噪音特征提取过程中的中间噪音特征输入交互网络的拼接网络进行特征交互,得到音频特征,并将音频特征输入交互网络的特征处理网络对中间主语音特征进行语音强化处理;根据主语音特征提取得到的目标主语音特征以及根据噪音特征提取得到的目标噪音特征,生成去噪强音的音频数据,包括:将主语音特征提取得到的目标主语音特征以及噪音特征提取得到的目标噪音特征输入融合网络的去噪音频生成网络,生成去噪强音的音频数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111647327.4/2.html,转载请声明来源钻瓜专利网。