[发明专利]基于门控递归融合深度嵌入式特征的多通道语音分离系统有效
申请号: | 202010985342.9 | 申请日: | 2020-09-18 |
公开(公告)号: | CN112017686B | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 范存航;温正棋 | 申请(专利权)人: | 中科极限元(杭州)智能科技股份有限公司 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/0308;G10L25/30;G06N3/04;G06N3/08 |
代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 杨小凡 |
地址: | 310016 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 门控 递归 融合 深度 嵌入式 特征 通道 语音 分离 系统 | ||
本发明公开了基于门控递归融合深度嵌入式特征的多通道语音分离系统,包括门控递归融合模块、深度嵌入式特征提取模块、语音分离模块、区分性训练模块和联合训练模块,门控递归融合模块,将空间信息和幅值谱信息进行深度融合,输出门控递归融合特征;深度嵌入式特征提取模块,通过深度嵌入式特征损失目标函数,从门控递归融合特征中提取更具有区分性的深度嵌入式特征;语音分离模块,将深度嵌入式特征分离,得到每个源目标语音信号;区分性训练模块,通过区分后的源目标语音信号得到区分性损失目标函数;联合训练模块,通过对区分性损失目标函数和深度嵌入式特征损失目标函数的联合训练。
技术领域
本发明涉及信号处理技术领域,尤其是涉及了基于门控递归融合深度嵌入式特征的多通道语音分离系统。
背景技术
语音作为人类交流信息的主要手段之一,语音分离一直在语音信号处理中占据着重要的地位。语音分离又被称为鸡尾酒会议问题其目标是从含有多个混合说话人的语音信号中将每个目标源语音信号分离出来。当一段语音中同时含有多个说话人时,会严重影响语音识别、说话人识别和助听器等系统的性能,因此语音分离技术就显得尤其重要。在语音分离技术的发展过程中,目前很多基于深度学习的语音分离方法取得了很好的效果,比如深度聚类算法、排列不变性训练准则和Conv-TasNet等。但是这些都是单通道的语音分离方法,他们没有办法利用语音的空间信息。对于麦克风阵列,他们包含了每个源信号的方向信息。所以,对于多通道语音分离来说,可以利用麦克风阵列提供的空间信息来进一步提升语音分离的性能。
为了利用空间信息,也有很多工作去处理解决多通道语音分离问题,比如多通道深度聚类算法(MDC)。MDC是将单通道的深度聚类算法(DC)给扩展到多通道领域。MDC首先利用通道间的相位差(IPDs)作为附属空间信息,然后将其与幅值谱特征拼接到一起作为多通道语音分离的输入特征。然后,通过深度神经网络将输入特征映射到一个高维的深度嵌入式空间中。此时,深度神经网络相当于一个映射函数,对于任意输入的混合语音信号都可以通过该映射函数来输出高维的深度嵌入式向量。最后,利用K-均值(K-means)聚类算法对该深度嵌入式向量进行聚类,以此来估计出目标语音信号的二值掩蔽值(IBM)。尽管MDC可以很好的将混合语音分离出来,但是它还是会存在两个主要的缺点。第一,MDC仅将空间信息作为一个附属特征拼接到幅值谱特征上,这样做很难学习到空间和幅值谱之间的互信息,并且IPDs和幅值谱特征的分布不同,这样做也不利于网络的学习和优化。第二,MDC的训练目标函数是定义在深度嵌入式向量上,而不是在真正的分离目标上,这些深度嵌入式向量并不能很完美的表示目标语音,因此会损害语音分离的性能。
发明内容
为解决现有技术的不足,实现多人和多通道下高质量语音分离的目的,本发明采用如下的技术方案:
基于门控递归融合深度嵌入式特征的多通道语音分离系统,包括:门控递归融合模块、深度嵌入式特征提取模块、语音分离模块、区分性训练模块和联合训练模块,门控递归融合模块,将空间信息和幅值谱信息进行深度融合,输出门控递归融合特征;深度嵌入式特征提取模块,通过深度嵌入式特征损失目标函数,从门控递归融合特征中提取更具有区分性的深度嵌入式特征;语音分离模块,基于句子级别的排列不变性训练准则进行语音分离,将深度嵌入式特征分离,得到每个源目标语音信号;区分性训练模块,通过区分后的源目标语音信号得到区分性损失目标函数,从而达到区分训练和提升语音分离性能的目的;联合训练模块,通过对区分性损失目标函数和深度嵌入式特征损失目标函数的联合训练,优化门控递归融合模块、深度嵌入式特征提取模块和语音分离模块,进一步提高语音分离的音质和可懂度。
所述门控递归融合模块,使用通道间的相位差的正弦和余弦值作为空间信息特征,具体流程为:
h′p=r⊙hp
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科极限元(杭州)智能科技股份有限公司,未经中科极限元(杭州)智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010985342.9/2.html,转载请声明来源钻瓜专利网。