[发明专利]一种基于分数阶傅立叶变换的单声道混叠语音分离方法无效

申请号：	200910235901.8	申请日：	2009-10-29
公开（公告）号：	CN102054480A	公开（公告）日：	2011-05-11
发明（设计）人：	茹婷婷;谢湘;匡镜明	申请（专利权）人：	北京理工大学
主分类号：	G10L11/00	分类号：	G10L11/00
代理公司：	北京理工大学专利中心 11120	代理人：	张利萍;郭德忠
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于分数傅立叶变换单声道语音分离方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种利用分数阶傅立叶变换进行单声道混叠语音分离的方法，属于音频信号处理技术领域。

背景技术

在语音和听觉信号处理领域中，有一个重要的问题是如何从混叠语音信号中分离出人们感兴趣的语音。混叠语音分离在语音通信、声学目标检测、声音信号增强等方面都有重要的理论意义和使用价值，但由于构成混叠语音的各个源语音信号在时域和频域上完全重叠，常用的语音增强方法难以将人们所感兴趣的语音(称为目标语音)从干扰语音中分离出来。

分数阶傅立叶变换(Fractional Fourier Transform，FrFT)对于分析某些非平稳信号具有十分优良的特性，成为一种近年来引起信号处理界广泛关注的工具。作为非平稳信号的语音，FrFT或者类似的变换在语音信号处理中的应用目前主要集中在以下几个方面：语音分析，可以给出比传统的傅立叶变换方法更高的时频分辨率；基音估计，可以给出比传统方法更精确的基音估计；语音增强；语音识别；以及说话人识别等。

在混叠语音分离方面的研究，主要分为听觉场景分析(Auditory Scene Analysis，ASA)和盲源分离(Blind Source Separation，BSS)两类。听觉场景分析的研究有两种方法：一种是从人的听觉生理及心理特性出发，研究人在声音识别过程中的规律，即听觉场景分析；另一种是利用对人听觉感知的研究成果建立模型，对模型进行数学分析并用计算机来实现它，这是计算听觉场景分析(Computational Auditory Scene Analysis，CASA)所要研究的内容。盲源分离是指在源信号、传输通道特性未知的情况下，仅由观测信号和源信号的一些先验知识(如概率密度)来估计出源信号各个分量的过程。盲源分离的独立分量分析方法首先是由P.Comon提出，它是基于神经网络和统计学的基础发展起来的一种技术，是一个十分活跃的前沿领域。

现有的混叠语音分离方法主要存在以下不足：

(1)听觉场景分析和计算听觉场景分析的研究还处于起步阶段。特别是在计算听觉场景分析研究中，所建立的模型只能用于验证听觉场景分析研究中的一些不够明了的理论，即人脑处理听觉信号的机制。

针对盲源分离方法的研究非常活跃，但对这个问题还没有得到很好的解决，其涉及到多通道卷积混叠系统和盲反卷积系统的稳定性及相位不确定性问题，尤其是当源的数目未知时盲反卷积问题以及带噪声的情况。

(2)混叠语音的基频分离提取是听觉场景分析中实现混叠语音分离的关键，但现有的混叠语音基频分离提取方法只考虑浊音与浊音的混叠，不考虑清音与浊音的混叠。这是因为在语音信号的清音帧中，激励信号是无周期性的，因此估计清音帧的基频并没有实际意义。不仅如此，清音帧估计出来的基频通常随机性强，不具有连续性，而从混叠语音中分离提取出的基频是以基频的连续性来判断其归属，所以，清音帧估计出的基频会影响基音归属判断，进而影响基频的平滑处理效果。

发明内容

本发明的目的是为克服现有技术的缺陷，解决如何从单声道混叠语音信号中分离出目标语音的问题，提出一种新的基于分数阶傅立叶变换的单声道混叠语音分离方法。

本发明所采用的技术方案如下：

一种基于分数阶傅立叶变换的单声道混叠语音分离方法，包括以下步骤：

步骤一、对混叠语音信号进行预处理，去除其静音段信号，找出浊音帧。

首先，对混叠语音信号进行端点检测，去除其静音段信号，把剩余的混叠段信号作为处理对象。

然后，对剩余混叠段信号进行分帧处理，并进行清浊音判断，标出浊音帧。

步骤二、基于分数阶傅立叶变换，对经步骤一处理后的浊音帧信号进行基音检测，分离出混叠语音的基音轨迹，也就是每个源信号的基频，过程如下：

首先，根据每帧信号的连续性计算出FrFT的阶数。然后，对浊音帧信号重新进行FrFT变换，求得谐波积谱，再用动态规划方法提取出其中一个人的基频，即一个源信号的基频。

当搜出一个人的基频之后，在谐波积谱中减去此人的基频和谐波所对应的谱成分，然后再使用一次动态规划，即可得到另一个人的基频，，即另一个源信号的基频；

重复上述过程，即可得到每个源信号的基频。

步骤三、由于语音信号能够用一组正弦信号的叠加表示，因此，根据经步骤二得到的各条基频，结合语音信号的正弦模型来合成语音，从而得到分离后的各个语音信号。