[发明专利]声音处理装置、声音处理方法和程序无效
申请号: | 201310684752.X | 申请日: | 2013-12-13 |
公开(公告)号: | CN103886865A | 公开(公告)日: | 2014-06-25 |
发明(设计)人: | 东山惠祐 | 申请(专利权)人: | 索尼公司 |
主分类号: | G10L21/02 | 分类号: | G10L21/02;H04R27/02 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 杜诚;王娜丽 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声音 处理 装置 方法 程序 | ||
对相关申请的交叉引用
该申请要求2012年12月20日提交的日本优先权专利申请JP2012-277662的权益,其全部内容通过引用合并于此。
技术领域
本技术涉及一种声音处理装置、声音处理方法和程序。更具体地,本技术涉及一种能够以更高准确度检测辅音的声音处理装置、声音处理方法和程序。
背景技术
近年来,随着老龄化社会的发展,越来越多的人正遭受年龄相关的听力损失。在年龄相关的听力损失中,在高频带的听觉灵敏度趋于劣化,因此存在听见话音尤其是辅音变得困难的许多示例。
因此,作为使得较容易听见辅音的技术,存在通过使用均衡器而增强存在输入信号的辅音的频带的技术。然而,在该技术中,通常在与输入信号的类型无关的情况下执行该频带的增强,因此,尽管增强了辅音,但是除辅音之外的声音的质量被改变,从而变得难以听见该声音。
此外,随着便携式电话的发展,变得能够在任何时间任何地点使用便携式电话进行对话。然而,这也意味着扬声器更可能处于有噪声的环境中。声音信号的辅音部分与其元音部分相比具有相对少的功率。因此,由于辅音部分被埋没在噪声中的事实而降低了声音的清晰度,因此出现难以听见对话语音的情形。特别地,对于具有年龄相关听力损失的人,已知听见声音的容易性受到背景噪声的幅度的影响,因此期望一种用于使得甚至在有噪声的环境中也较容易地听见声音的技术。
例如,如果噪声较大,则存在用于通过使用噪声抑制技术减小噪声来相对增加声音的SN比(信噪比)的技术。然而,在该技术中,随着SN比的增加,声音本身的质量通常将被改变,并且语音清晰度或可懂度趋于劣化。另外,当说话者从开始以模糊的语音咕哝时,噪声抑制技术是无用的。
鉴于以上情形,需要提供一种检测和增强辅音的技术,并且已提出了用于检测和增强辅音的技术。
作为这样的技术的一个示例,提出了通过利用多个时间帧提取多个帧信号以及通过计算和比较帧信号的平均功率来检测和增强辅音的技术(例如,参考日本未审查专利申请公布第2010-091897号和日本专利第04876245号)。
发明内容
在日本未审查专利申请公布第2010-091897号和日本专利第04876245号所公开的技术中,音节的辅音区间或长度是先前定义的,并且仅对应于该定义的帧被视为辅音。然而,实际的声音不一定遵从该定义。特别地,其定义根据语言而变化,因此算法的语言依赖性将变高。
此外,仅通过帧信号的功率的比较来执行辅音的检测,因此如果功率由于背景噪声而改变,则可能难以正确地检测辅音。
如上所述,在检测辅音的上述方法中,对于在辅音的背景中存在噪声的信号,难以以高准确度检测辅音。
本技术的实施例是鉴于这样的情形而做出的。期望以较高准确度检测辅音。
根据本公开的实施例,提供了一种声音处理装置,该声音处理装置包括:背景噪声估计单元,被配置成估计输入信号的背景噪声;噪声抑制单元,被配置成基于通过估计背景噪声而获得的结果,来抑制输入信号的背景噪声;特征量计算单元,被配置成基于抑制了背景噪声的输入信号而计算特征量;以及辅音检测单元,被配置成基于特征量来从输入信号检测辅音。
背景噪声估计单元可在频域中估计背景噪声。噪声抑制单元可通过抑制从输入信号获得的输入谱中包括的背景噪声而获得噪声抑制谱。特征量计算单元可基于噪声抑制谱而计算特征量。
背景噪声估计单元可通过获得先前输入谱的平均值而估计背景噪声。
声音处理装置还可包括辅音增强单元,该辅音增强单元被配置成针对这样的频率增强所述输入谱:在该频率处,噪声抑制谱的值大于通过将背景噪声谱乘以常数所获得的值,该背景噪声谱是通过对背景噪声的估计而获得的。
辅音增强单元可以以预定增强量来增强输入谱。
声音处理装置还可包括辅音增强水平计算单元,被配置成基于输入信号的当前功率与输入信号的先前元音部分的功率的平均值之比而计算增强量。辅音增强单元可以以该增强量来增强输入谱。
可关于频率方向执行增强量的内插。
噪声抑制单元可通过使用谱减法而获得噪声抑制谱。
输入信号的音调强度也可用作特征量。辅音检测单元可基于作为特征量的音调强度和根据噪声抑制谱算出的特征量而从输入信号检测辅音。
音调强度可由在音调频率的位置和该音调频率的谐波频率的位置生成噪声抑制谱的峰的程度来表示。
音调强度可以是输入信号的自相关系数值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310684752.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种精密贴合机
- 下一篇:全自动培养基灌装机械