[发明专利]一种多模态语音分离方法及系统有效
申请号: | 202110271703.8 | 申请日: | 2021-03-12 |
公开(公告)号: | CN113035227B | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 魏莹;刘洋 | 申请(专利权)人: | 山东大学 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/0208;G10L25/30;G06V40/16;G06V40/20;G06V10/46;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李圣梅 |
地址: | 250061 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多模态 语音 分离 方法 系统 | ||
本公开提出了一种多模态语音分离方法及系统,包括:接收待识别对象的混合声音及待识别对象的面部视觉信息;使用Dlib库进行人脸检测获得说话人数量;将上述信息进行处理获得复语谱图以及说话人的人脸图像并传输至多模态语音分离模型中,根据说话人的数量动态调整模型的结构,其中,所述多模态语音分离模型在训练过程中,使用复数域理想比值掩蔽作为训练目标,它在复数域中定义为干净声音语谱图与混合声音语谱图之间的比率,由实部与虚部组成并且包含了声音的幅值与相位信息;所述多模态语音分离模型输出对应人脸的数量的时频掩蔽;将输出的掩蔽与混合声音的语谱图进行复数相乘便得到干净声音的语谱图,对干净声音的语谱图作短时傅里叶逆变换计算得到干净声音的时域信号,从而完成语音分离。本公开模型更加适用于大多数应用场景。
技术领域
本公开属于语音分离技术领域,尤其涉及一种多模态语音分离方法及系统。
背景技术
在生活中经常需要接触各种各样的混合声音,其中人与人的混合声音是最常需要处理的。在多种声音混杂的环境中,人们有能力将注意力集中到某一个人的声音而忽略其他人的声音和环境噪声,这种现象被称为鸡尾酒会效应。由于人耳听觉系统具有强大的声音信号处理能力,因此可以很轻松地对混合声音进行分离。随着生活的智能化,语音分离技术在各种语音交互设备中起到了重要的作用,然而对于计算机而言,如何能够高效实现语音分离,一直是一个比较困难的问题。
目前语音分离技术具有非常广泛的应用,例如在语音识别的前端加上语音分离技术,把目标说话人的声音和其它干扰声音分开,从而提高语音识别系统的鲁棒性。正是由于语音分离技术可以给后续的语音信号处理带来帮助,因此越来越多的人将注意力放在了语音分离上。在过去的几十年里各种各样的语音分离算法被提出,它们被证实可以有效提升语音分离的性能。尽管如此,语音分离技术仍然有较大的发展空间。
大多数人只利用了声音特征信息进行语音分离。其中有一些传统的方法,例如基于独立成分分析(ICA)的方法、基于计算听觉场景分析(CASA)的方法、基于高斯混合模型(GMM)的方法等。ICA是一种用于将多元信号分离为加性子分量的计算方法,通过寻找多维数组中的统计独立和非高斯成分来实现对语音信号的分离,可以实现对语音信号的快速分析和处理,因此广泛应用到了盲源分离上[Blind equalisation using approximatemaximum likelihood source separation][Adaptive blind source separation withHRTFs beamforming preprocessing][Convolutive Blind Source Separation Appliedto the Wireless Communication]。CASA利用计算机技术,通过计算机模仿人类对听觉信号的处理过程进行建模,从而仿照人类从复杂的混合声源中感知声音、处理声音、解释声音。
参考文献[Speech segregation based on sound localization]将理想二值掩蔽(Ideal Binary Mask,IBM)与CASA方法相结合,构建了一个新的语音分离模型,提高了分离后语音的可懂度。GMM是一种使用了高斯分布作为参数模型的聚类算法,它在单通道语音分离方法中得到了广泛的应用。
参考文献[Soft Mask Methods for Single-Channel Speaker Separation]提出了用GMM解决单通道语音分离的方法,利用EM(Expectation Maximization,简称EM)算法学习GMM的参数。但它仍然具有缺点,源分布的阶数难以选择,对初始化依赖比较大,实现起来十分复杂。
随着深度学习的快速发展,一些优秀的算法被提出,如卷积神经网络(CNN)、循环神经网络(RNN)等。人工神经网络由于其强大的非线性映射能力,大大提高了监督学习任务的性能,因此被越来越多的人所关注。目前,在已经被提出的基于深度学习的语音分离算法中,大多数在数据预处理过程中使用短时傅里叶变换(STFT)等时频分解技术将声音转化为语谱图,而在最近几年出现了直接将原始声音信号作为输入的端到端语音分离方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110271703.8/2.html,转载请声明来源钻瓜专利网。