[发明专利]一种基于声纹特征的多人语音分离方法、设备及介质在审
申请号: | 202111004878.9 | 申请日: | 2021-08-30 |
公开(公告)号: | CN113990344A | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 沈莹;程诗丹;周子怡;张林;赵生捷 | 申请(专利权)人: | 同济大学 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L17/02;G10L17/18;G10L25/03;G10L25/18;G10L25/24;G10L25/30 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 应小波 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 声纹 特征 人语 音分 方法 设备 介质 | ||
本发明涉及一种基于声纹特征的多人语音分离方法、设备及介质,该方法包括:S1:获取目标说话人的声纹特征Xref以及对混合音频采用短时傅里叶变换提取其频谱特征Xmix;S2:通过拼接混合音频的频谱特征Xmix与目标说话人的声纹特征Xref得到参考声纹特征的频谱特征X′mix,并将频谱特征X′mix输入到用于捕获低级别音频特征的扩张卷积层,得到语音分离模型的输入特征Xinput;S3:通过基于语音分离模型获取频谱掩膜,并将其与混合音频的频谱特征Xmix相乘,得到预测出的目标说话人的纯净音频的频谱;通过参考混合音频的相位谱并结合短时傅里叶逆变换,得到预测出的目标说话人在时域上的纯净音频。与现有技术相比,本发明具有语音分离精度高的优点。
技术领域
本发明涉及智能语音分离领域,尤其是涉及一种基于声纹特征的多人语音分离方法、设备及介质。
背景技术
人类可以在多个声源存在时进行选择性的聆听,而计算机却不具备这种能力。在日常生活中,当我们的注意力集中在和某一个目标或对象的谈话之中时,通常会忽略周遭环境中其他人之间发生的对话或者环境中的噪音,这被称为鸡尾酒会效应。鸡尾酒会效应通常在以下两种情况下发生:①人类的注意力集中在某个声音的情况,如看电影时人的注意力会集中注意力在电影的声源上;②人类的听觉感官受到某种刺激的情况,如发生爆炸的轰鸣声会让人忽略周围的其他声音。
1953年,Cherry,E.Colin提出了著名的鸡尾酒会问题(Cocktail PartyProblem),即空间内存在多个说话人同时讲话,并且在这个空间中存在着其他的背景噪声的情况下,如何准确追踪并识别出特定的说话人的语音的问题。鸡尾酒会问题也可以被形象的理解为计算机视觉中图形背景问题的听觉版本,关注的声音即为图形,其他的声音即为背景。目前,鸡尾酒会问题中存在着两个挑战性问题:
(1)如何从混合语音信号中分离出目标语音信号?
(2)如何追踪并保持对目标声源的注意力,并且能够在不同的声源之间进行注意力的转换?
在大多数情况下,以上两个挑战是相互影响的,对目标声源的追踪可以从好的语音分离中受益,而语音分离也可以从对目标声源的追踪中受益。事实上,目前针对解决鸡尾酒会问题的研究工作主要集中于第一个挑战性问题,即语音分离。
语音交互在现实世界的实际应用中通常是一对一的,即智能设备往往只需要关注目标说话人的声源发出的语音信号,而可以忽略其他声源。因此,面对语音分离问题,要解决的基础目标为:从由多个说话人的语音信号构成的混合语音信号中,分离出目标说话人的语音信号。然而,现有的绝大多数基于深度神经网络的语音分离方法通常仅以混合音频的频谱特征作为模型输入,而没有考虑到目标说话人的其他的语音特征。
随着多模态机器学习方法的兴起,有学者提出了说话人独立的音频-视觉联合模型(Joint Audio-Visual Model),来从混合语音信号中分离出目标语音信号,其中的视觉特征被用于跟踪场景中的目标说话人。尽管多模态机器学习的语音分离方法取得了不错的效果,然而多模态的方法要求同时使用音频信息和视觉信息,在现实世界的很多语音交互应用的场合中视觉信息是很难获取的,因此多模态机器学习的语音分离方法对应用场景中可获取的信息类别要求较高,应用范围并不广泛。
本发明所要解决的技术问题为:无需视觉等除语音外的其他信息,精确地从混合语音信号中分离目标语音信号。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于声纹特征的多人语音分离方法、设备及介质,该方法基于声纹特征可精确地从混合语音信号中分离目标语音信号。
本发明的目的可以通过以下技术方案来实现:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111004878.9/2.html,转载请声明来源钻瓜专利网。