[发明专利]一种音频信号处理方法、装置、终端及存储介质有效
申请号: | 201911301727.2 | 申请日: | 2019-12-17 |
公开(公告)号: | CN111009256B | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 侯海宁 | 申请(专利权)人: | 北京小米智能科技有限公司 |
主分类号: | G10L21/0216 | 分类号: | G10L21/0216;G10L21/0232 |
代理公司: | 北京善任知识产权代理有限公司 11650 | 代理人: | 康艳青 |
地址: | 100085 北京市海淀区清河*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 信号 处理 方法 装置 终端 存储 介质 | ||
本公开是关于一种音频信号处理方法、装置终端及存储介质,方法包括:由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得至少两个麦克风各自在时域上的多帧原始带噪信号;对于时域上的每一帧,根据至少两个麦克风各自的原始带噪信号,获取至少两个声源各自的频域估计信号;对于至少两个声源中的每个声源,将第一频域估计信号在频域上划分为多个频域估计分量;对于每一个声源,将各频域估计分量的相关矩阵分别进行特征分解,以获得各频域估计分量对应的目标特征向量;基于每个声源的各目标特征向量和频域估计信号,获得每个频点的分离矩阵;基于分离矩阵及原始带噪信号,获得至少两个声源各自发出的声音的音频信号。
技术领域
本公开涉及通信技术领域,尤其涉及一种音频信号处理方法、装置、终端及存储介质。
背景技术
相关技术中,智能产品设备拾音多采用麦克风阵列,应用麦克风波束形成技术提高语音信号处理质量,以提高真实环境下的语音识别率。但多个麦克风的波束形成技术对麦克风位置误差敏感,性能影响较大,另外麦克风个数增多了也会导致产品成本升高。
因此,目前越来越多的智能产品设备只配置两个麦克风;两个麦克风常采用完全不同于多个麦克风波束形成技术的盲源分离技术对语音进行增强,而如何使得基于盲源分离技术分离后信号的语音质量更高是目前的迫切需要解决的问题。
发明内容
本公开提供一种音频信号处理方法、装置、终端及存储介质。
根据本公开实施例的第一方面,提供一种音频信号处理方法,包括:
由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自在时域上的多帧原始带噪信号;
对于时域上的每一帧,根据所述至少两个麦克风各自的所述原始带噪信号,获取所述至少两个声源各自的频域估计信号;
对于所述至少两个声源中的每个声源,将所述频域估计信号在频域上划分为多个频域估计分量,其中,每个频域估计分量对应一个频域子带并且包含多个频点数据;
对于每一个声源,将各频域估计分量的相关矩阵分别进行特征分解,以获得各所述频域估计分量对应的目标特征向量;
基于每个声源的各所述目标特征向量和所述频域估计信号,获得每个频点的分离矩阵;
基于所述分离矩阵及所述原始带噪信号,获得至少两个声源各自发出的声音的音频信号。
上述方案中,所述方法还包括:
对于每一个声源,基于所述第c个频域估计分量、与所述第c个频域估计分量的共轭转置的乘积,获得所述第c个频域估计分量的第一矩阵;
基于第1至第N帧的所述第c个频域估计分量的所述第一矩阵,获取所述第c个频域估计分量的相关矩阵;其中,所述N为所述原始带噪信号的帧数;所述c为小于或等于C的正整数,所述C为所述频域子带的个数。
上述方案中,所述基于每个声源的各所述目标特征向量和所述频域估计信号,获得每个频点的分离矩阵,包括:
对于每一个声源,基于所述第c个频域估计分量的所述目标特征向量的转置矩阵与所述第c个频域估计分量的乘积,获得所述第c个频域估计分量映射到预设空间内的映射数据;
基于所述映射数据,以及第1至第N帧的所述原始带噪信号的迭代运算,获得所述分离矩阵。
上述方案中,所述方法还包括:
按照对数函数对所述映射数据进行非线性变换,以获得更新后的映射数据。
上述方案中,所述基于所述映射数据,以及第1至第N帧的所述原始带噪信号的迭代运算,获得所述分离矩阵,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米智能科技有限公司,未经北京小米智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911301727.2/2.html,转载请声明来源钻瓜专利网。