[发明专利]一种声源分离方法及设备在审
申请号: | 202010459956.3 | 申请日: | 2020-05-27 |
公开(公告)号: | CN111627458A | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 王超;冯大航;陈孝良 | 申请(专利权)人: | 北京声智科技有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L25/18;G10L25/27 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 李琴 |
地址: | 100080 北京市海淀区北四*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 声源 分离 方法 设备 | ||
本发明提供一种声源分离方法及设备,该方法包括:对待分离的混合语音数据进行时频变换,确定对应的混合语音频谱数据,所述混合语音数据包括目标语音数据与非目标语音数据;将所述混合语音频谱数据输入到采用密集卷积网络的声源分离模型,根据输出结果确定所述混合语音数据中的目标语音数据,其中,所述声源分离模型通过以混合语音样本的频谱数据为输入,以输出理想比率掩模IRM为目标进行模型训练得到。本发明提供的声源分离方法及设备,解决了现有的声源分离方法存在的计算复杂、分离质量较低的问题。
技术领域
本发明涉及声源分离技术领域,特别涉及一种声源分离方法及设备。
背景技术
声源分离是指从混合在一起的多个声源发出的语音信号中,分离出每个声源对应的独立语音信号的过程。声源分离可应用于回声消除、应答词消除、目标识别、语音识别等听觉场景分析中。该问题的研究对提高目标检测与识别类系统的抗噪声性能有十分重要的意义。目前针对该问题的解决方法大致可以分为两类:盲分离方法和基于模型的分离方法。
盲源分离就是在对声源信息未知的情况下,通过统计的方法把不同声源里面的统计特性提取出来,从混合信号中实现对声源信号的分离;基于模型的分离方法,目前很多采用深度学习的方式进行声源分离,具体先将需要分离的声源信号从时域转到频域,然后用神经网络训练得到的频域信号中各个频率点属于目标语音的概率,将频域信号再乘上该概率,反变换到时域,进而得到目标语音信号。
目前利用神经网络进行模型训练,解决声源分离问题时,神经网络中数据层结构较为复杂,控制参数相对较多,造成较大的计算量。且随着网络层数的加深,神经网络在训练过程中的前传信号和梯度信号在经过很多层之后会出现衰减,造成梯度消失和数据特征传播减弱等问题,因而导致训练得到的模型进行声源分离时质量的下降。因此,目前进行声源分离的方法存在计算复杂、分离质量较低的问题。
发明内容
本发明提供了一种声源分离方法及设备,用以解决现有的声源分离方法存在的计算复杂、分离质量较低的问题。
根据本发明实施例的第一方面,提供一种声源分离方法,该方法包括:
对待分离的混合语音数据进行时频变换,确定对应的混合语音频谱数据,所述混合语音数据包括目标语音数据与非目标语音数据;
将所述混合语音频谱数据输入到采用密集卷积网络的声源分离模型,根据输出结果确定所述混合语音数据中的目标语音数据,其中,所述声源分离模型通过以混合语音样本的频谱数据为输入,以输出理想比率掩模IRM为目标进行模型训练得到。
可选地,所述对待分离的混合语音数据进行时频变换,确定对应的混合语音频谱数据,包括:
利用设定的帧长和帧移对待分离的混合语音数据进行分帧,并对得到的各帧语音数据加窗后进行短时傅里叶变换,确定对应的混合语音频谱数据。
可选地,所述帧长和帧移根据待分离的混合语音数据的短时平稳特征确定,所述加窗对应的窗口长度等于所述帧长。
可选地,所述密集卷积网络包括两个连接的密集连接模块,各密集连接模块包括采用卷积运算的三个瓶颈层,各密集连接模块的最后一个瓶颈层之后连接一个过渡层,所述过渡层用于对输入的特征图进行调整,使输出的特征图与输入所述密集卷积网络的数据对应的特征图大小相同。
可选地,各瓶颈层采用的卷积运算为1×1卷积与3×3卷积级联得到的卷积运算,所述过渡层采用的卷积运算为1×1卷积与3×3卷积级联得到的卷积运算。
可选地,所述以混合语音样本的频谱数据为输入,以输出理想比率掩模IRM为目标进行模型训练,包括:
分别获取相同时长的目标语音样本和非目标语音样本,并将所述目标语音样本和非目标语音样本叠加后得到混合语音样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010459956.3/2.html,转载请声明来源钻瓜专利网。