[发明专利]基于门控递归融合深度嵌入式特征的多通道语音分离系统有效
申请号: | 202010985342.9 | 申请日: | 2020-09-18 |
公开(公告)号: | CN112017686B | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 范存航;温正棋 | 申请(专利权)人: | 中科极限元(杭州)智能科技股份有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/0308;G10L25/30;G06N3/04;G06N3/08 |
代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 杨小凡 |
地址: | 310016 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 门控 递归 融合 深度 嵌入式 特征 通道 语音 分离 系统 | ||
1.基于门控递归融合深度嵌入式特征的多通道语音分离系统,其特征在于包括:门控递归融合模块、深度嵌入式特征提取模块、语音分离模块、区分性训练模块和联合训练模块,门控递归融合模块,将空间信息和幅值谱信息进行深度融合,输出门控递归融合特征;深度嵌入式特征提取模块,通过深度嵌入式特征损失目标函数,从门控递归融合特征中提取更具有区分性的深度嵌入式特征;语音分离模块,基于句子级别的排列不变性训练准则进行语音分离,将深度嵌入式特征分离,得到每个源目标语音信号;区分性训练模块,通过区分后的源目标语音信号得到区分性损失目标函数;联合训练模块,通过对区分性损失目标函数和深度嵌入式特征损失目标函数的联合训练,优化门控递归融合模块、深度嵌入式特征提取模块和语音分离模块。
2.如权利要求1所述的基于门控递归融合深度嵌入式特征的多通道语音分离系统,其特征在于所述门控递归融合模块,使用通道间的相位差的正弦和余弦值作为空间信息特征,具体流程为:
h′p=r⊙hp
r是重置门,z是更新门,σ表示sigmoid函数,Wr和Wz是重置门和更新门的权重,hp是隐状态,是空间信息特征,⊙表示元素间的乘积,是记忆细胞,Wh是权重,hq即fGRF表示门控递归融合特征:
混合语音的幅值谱经深度神经网络提取得到幅值谱特征ry,空间信息特征和幅值谱特征ry交替利用门控递归融合模块完成深度的结合。
3.如权利要求2所述的基于门控递归融合深度嵌入式特征的多通道语音分离系统,其特征在于所述深度嵌入式特征提取模块,对输入的混合语音信号进行短时傅里叶变换,将时域信号变换到频域信号,然后对其进行建模,获得更具有区分性的深度嵌入式特征,深度嵌入式特征采用深度神经网络训练得到:
Nm表示麦克风阵列的通道数,训练损失目标函数为:
JDC表示深度嵌入式特征的损失目标函数,V是深度嵌入式特征,表示实数,B表示每一个时频块的源对应关系,TF指经过傅里叶变换后的时频块,C是混合说话人的个数,表示平方Frobenius范数。
4.如权利要求3所述的基于门控递归融合深度嵌入式特征的多通道语音分离系统,其特征在于所述语音分离模块,利用深度嵌入式特征V进行语音分离,分离的输出为估计的理想相位敏感掩蔽值
fγ(*)表示基于深度神经网络的非线性映射函数,对于语音分离模块的训练方向为:
Jφ(s)表示对应排列组合的损失函数,|Y|表示混合语音的幅值谱,|Xs|表示目标源s的幅值谱,θy和θs分别表示混合语音和目标源s的相位,利用混合的幅值谱|Y|与相位敏感掩蔽值相乘得到估计的目标语音的幅值谱,在估计的幅值谱和真实的幅值谱之间计算均方误差;
所述句子级别的排列不变性训练准则是指对神经网络输出的各个目标语音信号Xs进行排列组合,分别计算对应的均方误差,选择最小的作为训练的目标函数,训练目标函数为:
P表示所有可能的排列组合,φ*表示最优的排列组合。
5.如权利要求4所述的基于门控递归融合深度嵌入式特征的多通道语音分离系统,其特征在于所述区分性训练模块,其损失目标函数为:
α≥0表示区分性学习的正则化参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科极限元(杭州)智能科技股份有限公司,未经中科极限元(杭州)智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010985342.9/1.html,转载请声明来源钻瓜专利网。