[发明专利]用于自动地选择阈值以分离声音源的信号分离系统和方法有效
申请号: | 201110037394.4 | 申请日: | 2011-01-28 |
公开(公告)号: | CN102142259A | 公开(公告)日: | 2011-08-03 |
发明(设计)人: | 金燦佑;严基完;李在原;理查德·M·斯特恩 | 申请(专利权)人: | 三星电子株式会社 |
主分类号: | G10L21/02 | 分类号: | G10L21/02 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 郭鸿禧;罗延红 |
地址: | 韩国京畿*** | 国省代码: | 韩国;KR |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 自动 选择 阈值 分离 声音 信号 系统 方法 | ||
本申请要求2010年1月28日提交到韩国知识产权局第10-2010-0007751号韩国专利申请的优先权,该申请全部公开于此以资所有目的的参考。
技术领域
以下描述涉及一种用于自动地选择阈值以分离声音源的信号分离系统和方法。
背景技术
虽然语音识别技术的性能已经极大地提高,但是语音识别的准确性通常在噪声环境中降低。因此,需要有效地解决在消费产品中实际使用的语音识别系统中,语音识别的准确性减小的问题。
因此,需要一种用于从干扰声音源中有效地分离目标声音的系统和方法。
发明内容
在一个总体方面,一种信号分离系统包括:幂序列计算器,基于从多个话筒接收的信号使用目标掩码计算目标信号的幂序列,并使用补充掩码计算干扰信号的幂序列;阈值设置单元,对目标信号幂序列和干扰信号幂序列应用非线性,计算非线性目标信号幂序列和非线性干扰信号幂序列的相关系数,以及设置最小化相关系数的噪声掩饰阈值。
幂序列计算器可基于从接收的信号的耳间时间差值(ITD)、接收的信号的耳间相位差值(IPD)和接收的信号的耳间强度差值(IID)中选择的至少一个差值,来产生目标掩码和补充掩码。
信号分离系统还可包括:差值计算器,将短时傅里叶变换(STFT)应用于每个接收的信号;以及基于STFT变换的信号计算所述至少一个差值。
阈值设置单元可基于非线性目标信号幂序列、非线性干扰信号幂序列以及从接收的信号的耳间时间差值(ITD)、接收的信号的耳间相位差值(IPD)和接收的信号的耳间强度差值(IID)中选择的至少一个差值,来计算相关系数。
阈值设置单元可将所述至少一个差值设置为最小化相关系数的噪声掩饰阈值。
非线性可以是对数非线性或幂法则非线性。
目标掩码和补充掩码的每一个可以是二进制掩码或连续掩码。
在另一总体方面,一种信号分离方法包括:基于从多个话筒接收的信号使用目标掩码计算目标信号的幂序列,并使用补充掩码计算干扰信号的幂序列;对目标信号幂序列和干扰信号幂序列应用非线性;计算非线性目标信号幂序列和非线性干扰信号幂序列的相关系数;以及设置最小化相关系数的噪声掩饰阈值。
在另一总体方面,一种信号分离系统包括:掩饰单元,使用目标掩码和补充掩码分别掩饰从多个话筒接收的信号;阈值设置单元,设置最小化在掩饰的信号之间的相关性的噪声掩饰阈值。
在另一总体方面,一种信号分离方法包括:使用目标掩码和补充掩码分别掩饰从多个话筒接收的信号;以及设置最小化在掩饰的信号之间的相关性的噪声掩饰阈值。
在另一总体方面,一种信号分离系统包括:掩饰频谱产生器,使用目标掩码和补充掩码从多个话筒接收的信号中产生掩饰的目标信号频谱和掩饰的干扰信号频谱;阈值设置单元,基于接收的信号之间的差值来设置目标掩码和补充掩码的阈值,从而所述阈值最小化在掩饰的目标信号频谱的非线性的目标幂序列与掩饰的干扰信号频谱的非线性的干扰幂序列之间的相关性。
在另一总体方面,一种信号分离方法包括:使用目标掩码和补充掩码从多个话筒接收的信号产生掩饰的目标信号频谱和掩饰的干扰信号频谱;以及基于接收的信号之间的差值来设置目标掩码和补充掩码的阈值,从而所述阈值最小化在掩饰的目标信号频谱的非线性的目标幂序列与掩饰的干扰信号频谱的非线性的干扰幂序列之间的相关性。
通过以下详细描述、附图和权利要求,其它特点和方面将会变得更加清楚。
附图说明
图1示出左话筒、右话筒、目标声音源和干扰声音源的示例。
图2示出选择用于声音源分离的最优掩饰耳间时间差值(ITD)阈值的过程的示例。
图3示出信号分离系统的示例。
图4示出信号分离方法的示例。
图5示出信号分离系统的示例。
图6示出信号分离方法的示例。
贯穿附图和详细描述,除非另外说明,相同的附图标号将被理解为表示相同的元件、特征和结构。为了清楚、示出和方便的目的,可夸大这些元件的相对大小和描述。
具体实施方式
提供以下详细描述以助于读者获得对在此描述的方法、设备和/或系统的全面理解。因此,在此描述的方法、设备和/或系统的各种改变、修改和/或等同物将被建议给本领域的普通技术人员。另外,为了增加清楚和简明的目的,可省略已知功能和结构的描述。
即使在混合有各种声音的噪声环境中,人类双耳系统也具有分离期望的声音的能力。这往往称为双耳鸡尾酒会效应。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星电子株式会社,未经三星电子株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110037394.4/2.html,转载请声明来源钻瓜专利网。