[发明专利]基于双支路卷积神经网络融合模型的盲语音分离方法在审
申请号: | 202211352869.3 | 申请日: | 2022-11-01 |
公开(公告)号: | CN115862661A | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 孙林慧;张蒙;李平安 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/0308;G10L25/30;G10L25/24;G10L25/03;G06N3/0464;G06N3/08 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 210000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 支路 卷积 神经网络 融合 模型 语音 分离 方法 | ||
本发明公开了基于双支路卷积神经网络融合模型的盲语音分离方法,包括获取盲语音信号和盲语音信号幅度谱,所述盲语音信号为双混合语音信号;预处理获取的盲语音信号,并根据双支路卷积神经网络融合模型提取盲语音信号的深度融合特征;根据盲语音信号的深度融合特征,利用分类器给盲语音信号打标;将盲语音信号幅度谱输入与打标标签匹配的语音分离模型,获得目标语音信号,完成盲语音分离。本发明能够分离双混合语音信号。
技术领域
本发明涉及基于双支路卷积神经网络融合模型的盲语音分离方法,属于说话人识别和语音分离技术领域。
背景技术
近年来,深度学习技术被广泛地用于语音信号处理,学者们提出多种基于深度学习的语音分离方法。对单通道语音分离的研究包括说话人语音分离、语音和噪声分离、歌声分离等,主要通过对目标语音和干扰语音进行时频域分析,从混合信号中提取出目标语音。
学者们通过深度神经网络(Deep Neural Network,DNN)、卷积神经网络(Convolutional Neural Network,CNN)、长短时记忆网络(Long Short-Term Memory,LSTM)建模,实现语音分离。
这些研究工作都根据训练各种深度神经网络得到输入混合语音特征与目标语音特征之间的非线性映射关系来实现语音分离,相比浅层模型,深度学习方法解决单通道语音分离问题更具有优越性。针对两个说话人混合语音分离问题时,通常按照说话人混合情况分别讨论,说话人混合包括异性别混合(Male-Female,M-F)和同性别混合,同性别混合又包括男男混合(Male-Male,M-M)和女女混合(Female-Female,F-F)。以往的语音分离研究均是按照性别组合分别讨论,即直接在匹配的模型上进行语音分离,但是现实语音分离时混合语音的性别组合是未知的。若先判断出混合语音性别组合情况,再根据相应的模型进行语音分离,这样更适用于实际的盲语音分离。
判断说话人性别组合属于说话人识别领域的一个问题。近年来,说话人识别技术已经飞速发展,基于深度学习的说话人识别方法逐渐成为主流。深度学习相对于传统方法的主要优势是其强大的表征能力,能够从话语中提取高度抽象的嵌入特征用于识别说话人。由于在大多数情况下,混合语音中两个人的语音同时存在,训练模型时异性别组合与两种同性别组合中都有一种共同性别语音存在,这使得混合语音性别组合识别比传统的纯净语音说话人识别要难得多,使用传统单一声学特征直接识别三种性别组合非常困难,很容易产生误判。
因此,本申请提出了基于双支路卷积神经网络融合模型的盲语音分离方法。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于双支路卷积神经网络融合模型的盲语音分离方法,能够分离双混合语音信号。
为达到上述目的,本发明是采用下述技术方案实现的:
本发明提供基于双支路卷积神经网络融合模型的盲语音分离方法,包括以下步骤:
获取盲语音信号和盲语音信号幅度谱,所述盲语音信号为双混合语音信号;
预处理获取的盲语音信号,并将预处理后的盲语音信号输入双支路卷积神经网络融合模型获取盲语音信号的深度融合特征;
根据盲语音信号的深度融合特征,利用分类器给盲语音信号打标;
将盲语音信号幅度谱输入与打标标签匹配的语音分离模型,获得目标语音信号,完成盲语音分离。
进一步地,所述语音分离模型为男-男混合语音分离模型、男-女混合语音分离模型或女-女混合语音分离模型。
进一步地,所述双支路卷积神经网络融合模型包括融合层和两个支路卷积神经网络;
各支路卷积神经网络均设有输入层、两个卷积层、两个池化层、全连接层;
其中,各池化层设置在对应地卷积层之后。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211352869.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种巷道支护的可拆卸锚杆支护结构
- 下一篇:一种谐振器及声学滤波器