[发明专利]一种声源分离方法及设备在审
申请号: | 202010459956.3 | 申请日: | 2020-05-27 |
公开(公告)号: | CN111627458A | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 王超;冯大航;陈孝良 | 申请(专利权)人: | 北京声智科技有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L25/18;G10L25/27 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 李琴 |
地址: | 100080 北京市海淀区北四*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 声源 分离 方法 设备 | ||
1.一种声源分离方法,其特征在于,包括:
对待分离的混合语音数据进行时频变换,确定对应的混合语音频谱数据,所述混合语音数据包括目标语音数据与非目标语音数据;
将所述混合语音频谱数据输入到采用密集卷积网络的声源分离模型,根据输出结果确定所述混合语音数据中的目标语音数据,其中,所述声源分离模型通过以混合语音样本的频谱数据为输入,以输出理想比率掩模IRM为目标进行模型训练得到。
2.根据权利要求1所述的方法,其特征在于,所述对待分离的混合语音数据进行时频变换,确定对应的混合语音频谱数据,包括:
利用设定的帧长和帧移对待分离的混合语音数据进行分帧,并对得到的各帧语音数据加窗后进行短时傅里叶变换,确定对应的混合语音频谱数据。
3.根据权利要求2所述的方法,其特征在于,所述帧长和帧移根据待分离的混合语音数据的短时平稳特征确定,所述加窗对应的窗口长度等于所述帧长。
4.根据权利要求1所述的方法,其特征在于,所述密集卷积网络包括两个连接的密集连接模块,各密集连接模块包括采用卷积运算的三个瓶颈层,各密集连接模块的最后一个瓶颈层之后连接一个过渡层,所述过渡层用于对输入的特征图进行调整,使输出的特征图与输入所述密集卷积网络的数据对应的特征图大小相同。
5.根据权利要求4所述的方法,其特征在于,各瓶颈层采用的卷积运算为1×1卷积与3×3卷积级联得到的卷积运算,所述过渡层采用的卷积运算为1×1卷积与3×3卷积级联得到的卷积运算。
6.根据权利要求1所述的方法,其特征在于,所述以混合语音样本的频谱数据为输入,以输出理想比率掩模IRM为目标进行模型训练,包括:
分别获取相同时长的目标语音样本和非目标语音样本,并将所述目标语音样本和非目标语音样本叠加后得到混合语音样本;
对所述混合语音样本进行分帧、加窗及短时傅里叶变换,得到混合语音样本的频谱数据,并根据IRM算法确定对应的IRM;
以不同混合语音样本的频谱数据及对应的IRM作为训练样本,将混合语音样本的频谱数据,输入到采用密集卷积网络的网络模型,以输出IRM为目标,调整所述网络模型的模型参数,得到所述声源分离模型。
7.根据权利要求6所述的方法,其特征在于,所述以输出IRM为目标,调整所述网络模型的模型参数,包括:
将所述网络模型输出的IRM与训练样本中的IRM进行对比,利用预设的损失函数进行回归训练,调整所述网络模型的模型参数。
8.根据权利要求7所述的方法,其特征在于,所述预设的损失函数为如下加权的欧几里得损失函数:
其中,N为所述网络模型一次批处理中样本的个数,Xi为输入所述网络模型的频谱数据,W为所述网络模型的加权控制参数,θ为所述网络模型的偏置控制参数,f(Xi,W,θ)为所述网络模型预测的IRM,Yi为所述Xi在混合语音样本中对应的IRM,Yw为根据所述Yi计算的梯度权重。
9.根据权利要求8所述的方法,其特征在于,还包括:
若输入所述网络模型的频谱数据在混合语音样本中对应的IRM大于预设阈值,确定所述频谱数据对应的权重为所述对应的IRM的倒数,否则,确定所述权重为所述预设阈值的倒数。
10.根据权利要求1所述的方法,其特征在于,所述根据输出结果确定所述混合语音数据中的目标语音数据,包括:
将所述混合语音频谱数据与所述声源分离模型输出的IRM相乘后进行短时傅里叶反变换,得到所述混合语音数据中的目标语音数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010459956.3/1.html,转载请声明来源钻瓜专利网。