[发明专利]基于听觉场景分析及语音模型化的语音信号分离及合成无效

申请号：	201480045547.1	申请日：	2014-07-21
公开（公告）号：	CN105474311A	公开（公告）日：	2016-04-06
发明（设计）人：	C·阿文达尼奥;D·克莱恩;J·伍德拉夫;M·古德温	申请（专利权）人：	视听公司
主分类号：	G10L21/0208	分类号：	G10L21/0208
代理公司：	北京律盟知识产权代理有限责任公司 11287	代理人：	林斯凯
地址：	美国加利***	国省代码：	美国;US
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于听觉场景分析语音模型信号分离合成
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

相关申请案的交叉参考

本申请案主张2013年7月19日申请且标题为“用于基于听觉场景分析及语音模型化进行语音信号分离及合成的系统及方法(SystemandMethodforSpeechSignalSeparationandSynthesisBasedonAuditorySceneAnalysisandSpeechModeling)”的第61/856,577号美国临时申请案及2014年3月28日申请且标题为“同时跟踪多个目标的多个属性(TrackingMultipleAttributesofSimultaneousObjects)”的第61/972,112号美国临时申请案的权利。前述提及的申请案的标的物出于全部目的以引用的方式并入本文。

技术领域

本发明大体上涉及音频处理，且更特定地说涉及从噪声与语音的混合物产生清晰语音。

背景技术

例如维纳(Wiener)滤波的当前噪声抑制技术尝试改善全局信噪比(SNR)且使低SNR区域衰减，因此将失真引入到语音信号中。惯例是：执行此滤波作为变换域中的量值修改。通常，被破坏的信号用来以所修改的量值重组信号。此途径可能丢失由噪声主导的信号分量，从而导致非所需且反常的频谱-时间调制。

当目标信号由噪声主导时，经由修改合成清晰语音信号而非增强被破坏的音频的系统有利于实现高的信噪比改善(SNRI)值及低的信号失真。

发明内容

此发明内容经提供来以简化形式引入概念选择，所述概念在下文【具体实施方式】中予以进一步描述。此发明内容不旨在识别所主张的标的物的关键特征或本质特征，也不旨在用作辅助确定所主张的标的物的范围。

根据本发明的方面，提供一种用于从噪声与语音的混合物产生清晰语音的方法。所述方法可包含：基于噪声与语音的所述混合物及语音模型导出合成语音参数；及至少部分基于所述语音参数合成清晰语音。

在一些实施例中，导出语音参数开始于对噪声与语音的所述混合物执行一或多次频谱分析以产生一或多个频谱表示。所述一或多个频谱表示可接着用于导出特征数据。接着可根据语音模型，将对应于所述目标语音的特征进行分组且使其与所述特征数据分离。特征表示的分析可允许分段及分组语音分量候选者。在某些实施例中，通过凭借所述语音模型辅助的多重假设跟踪系统评估对应于目标语音的特征的候选者。可至少部分基于对应于所述目标语音的特征产生所述合成语音参数。

在一些实施例中，所产生的合成语音参数包含频谱包络及发声信息。所述发声信息可包含音高数据及声音分类数据。在一些实施例中，从稀疏频谱包络估计所述频谱包络。

在各个实施例中，所述方法包含基于噪声模型确定所述特征数据中的非语音分量。如确定的所述非语音分量可部分用来区分语音分量及噪声分量。

在各个实施例中，所述语音分量可用来确定音高数据。在一些实施例中，所述非语音分量也可用于音高确定。(例如，可使用对关于噪声分量在何处遮盖语音分量的了解)。所述音高数据可经内插以在合成清晰语音之前填充丢失帧；其中丢失帧是指其中可能未确定良好的音高估计的帧。

在一些实施例中，所述方法包含基于所述音高数据产生表示发声语音的谐波映射。所述方法可进一步包含基于所述非语音分量从特征数据及所述谐波映射估计非发声语音的映射。谐波映射及非发声语音的映射可用来产生用于从噪声与语音的混合物的频谱表示提取稀疏频谱包络的屏蔽。

在本发明的其它实例实施例中，方法步骤存储于包括当由一或多个处理器实施时执行所叙述步骤的指令的机器可读媒体上。在又其它实例实施例中，硬件系统或装置可经调适以执行所叙述步骤。下文描述其它特征、实例及实施例。

附图说明

实施例是通过实例说明且不限制附图的图，其中相同参考指示类似元件，且其中：

图1展示适用于实施用于从噪声与语音的混合物产生清晰语音的方法的各个实施例的实例系统。

图2说明根据实例实施例的语音处理的系统。

图3说明根据实例实施例的用于分离及合成语音信号的系统。

图4展示发声帧的实例。

图5是根据实例实施例的发声帧的稀疏包络估计的时间-频率标绘图。