[发明专利]一种欠定语音盲源分离方法及装置在审
申请号: | 201910763771.9 | 申请日: | 2019-08-19 |
公开(公告)号: | CN110534130A | 公开(公告)日: | 2019-12-03 |
发明(设计)人: | 魏爽;杨璟安;徐朋;龙艳花;杨春夏;张巧珍 | 申请(专利权)人: | 上海师范大学 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/0308;G06K9/62 |
代理公司: | 31253 上海精晟知识产权代理有限公司 | 代理人: | 董强<国际申请>=<国际公布>=<进入国 |
地址: | 200234 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 观测信号 语音源 稀疏特征 源分离 混叠 矩阵 矩阵估计 盲源分离 稀疏表示 信号恢复 语音信号 两步法 散点图 稀疏 蚁群 改进 恢复 | ||
本发明公开了一种欠定语音盲源分离方法包括以下步骤:获取观测信号,对获取的观测信号进行处理,并获取语音源信号稀疏特征;根据获取的语音源信号稀疏特征(由散点图表示出),利用蚁群K均值聚类算法,获得混叠矩阵估计;根据估计的混叠矩阵与处理后的观测信号,使用贪婪稀疏化方法恢复语音源信号。本发明的一种欠定语音盲源分离方法,使用这种改进两步法可以解决两种不同类型语音信号稀疏表示下的欠定盲源分离问题,并且适用于两个以上观测信号数量的源信号恢复。
技术领域
本发明涉及语音信号处理领域,尤其涉及一种欠定语音盲源分离方法及装置。
背景技术
在实际生活中,个人常常处于同时包含多个声源如交谈声、音乐声、以及其他背景噪声的环境中,人脑可以在这种复杂混合语音环境中辨别出来自不同声源的语音。随着人工智能语音技术的发展,如何使用计算机代替人脑实现混合语音信号的智能盲源分离已成为近年来广大学者的研究热点。值得注意的是,在语音信号处理应用中,某一空间中通常存在的声源种类以及未知噪声种类繁多,而负责接收语音信号的传感器数量通常是有限的,导致接收到的语音信号数量少于声源信号数量。此时语音盲源分离中存在欠定问题,普通的盲源分离方法不再适用。因此,需要设计一种解决欠定模型下的语音盲源分离问题的方法。
对于欠定盲源分离问题,混叠矩阵是不可逆的,因此无法简单地对混叠矩阵求逆来求解源信号。为了解决欠定盲源分离问题,其源信号应该是稀疏的,所以首先需要保证源信号的稀疏性,采用稀疏分量分析(Sparse Component Analysis,SCA)的方法来求解稀疏解。现有解决欠定盲源分离问题的主要研究方法是利用稀疏分量分析的两步法,主要分为估计混叠矩阵阶段和重构源信号阶段。
在绝大多数情况下,语音信号在时域中无法满足稀疏要求,所以在估计混叠矩阵之前,需要将源信号转化为变换域中的稀疏信号。考虑到语音信号在频域中具有稀疏特性,通常采用时频变化法获得语音信号的稀疏特征。在实际情况下,部分语音信号在长时间内保持了在一个较窄的频域内,会在整个较长的观测时间段内具有稀疏特点,此时可以利用FFT使语音信号在频域中满足稀疏条件,从而获取其稀疏特征。而大部分语音信号由于其时变特性只是在短时间内具有频域的稀疏性,如果对此信号仅使用FFT,依然无法使语音信号在频域中满足稀疏条件,因此本文提出使用短时傅里叶变换法稀疏特征获取方法对观测信号进行处理,使语音信号满足稀疏条件。
对于一般的稀疏分量分析两步法,在第一步中通常采用势函数法、K均值法(K-means)、模糊K均值法、霍夫变换法等聚类方法。本文为了增强聚类性能,提高恢复精度,设计一种改进蚁群算法的K均值聚类算法。在第二步中,目前的常用方法为最短路径法,平滑L0范数(SL0)法等。然而,最短路径法需要讨论混叠矩阵中各列之间的角度关系,由于处理两维以上向量角度复杂的原因,存在该方法仅适用于只有两路观测信号的问题,并且该方法对源信号稀疏性要求比较高。平滑L0范数方法在混叠矩阵列向量处于特定分布范围的情况下恢复效果较差。并且这两种方法复杂度高,无法保证得到的信号是对源信号的最佳逼近。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是针对无法保证得到的信号是对源信号的最佳逼近,现有技术的方法复杂程度高,考虑到语音信号在频域内具有稀疏特性,使用一种贪婪最优化思想逼近稀疏最优解,实现了对语音源信号的恢复重构。使用这种改进两步法可以解决两种不同类型语音信号稀疏表示下的欠定盲源分离问题,并且适用于两个以上观测信号数量的源信号恢复。
为实现上述目的,本发明提供了一种欠定语音盲源分离方法包括以下步骤:
获取观测信号,对获取的观测信号进行处理,并获取语音源信号稀疏特征;
根据获取的语音源信号稀疏特征(由散点图表示出),利用蚁群K均值聚类算法,获得混叠矩阵估计;
根据估计的混叠矩阵与处理后的观测信号,使用贪婪稀疏化方法恢复语音源信号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海师范大学,未经上海师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910763771.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:干声和环境声音的分离
- 下一篇:一种音频播放方法及系统