[发明专利]用于将声学信号分解为声音对象的方法和系统、声音对象及其使用在审
申请号: | 201680043427.7 | 申请日: | 2016-07-22 |
公开(公告)号: | CN107851444A | 公开(公告)日: | 2018-03-27 |
发明(设计)人: | A·普拉他 | 申请(专利权)人: | 声音对象技术股份有限公司 |
主分类号: | G10L25/90 | 分类号: | G10L25/90 |
代理公司: | 中国国际贸易促进委员会专利商标事务所11038 | 代理人: | 宿小猛 |
地址: | 波兰*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 声学 信号 分解 声音 对象 方法 系统 及其 使用 | ||
技术领域
本发明的目的是一种用于将声学信号分解为具有振幅和频率缓慢变化的信号的形式的声音对象的方法和系统、以及声音对象和它们的使用。本发明适用于声学信号分析和合成(例如,特别是语音信号合成)领域。
背景技术
十几年来,声音信号分析的进展一直是微不足道的。仍然是众所周知的方法被使用,诸如神经网络、小波分析或模糊逻辑。除了这些方法之外,相当普遍的是使用经典快速傅立叶变换(FFT)算法来进行信号滤波,这允许使用相对低的计算能力来对分量(component)的频率进行分析。
最困难的领域之一、但是也是声音信号分析内最受关注的领域是语音的分析和合成。
尽管在数字技术的发展中观察到巨大的进展,但是该领域中的声音信号处理系统的进展并不显著。在近几年期间,尝试填补与语音识别相关的有利可图的市场的多个应用已经出现,但是它们的共同起源(主要是在频域中使用傅立叶变换的分析)以及与它相关的限制使得它们对市场需求没有响应。
这些系统的主要缺点是:
1)易受外部干扰的影响
现有的声音分析系统在确保一个信号来源的条件下令人满意地操作。如果额外的声音来源(诸如干扰、周围声音或多个乐器的辅音(consonant sound))出现,则它们的频谱重叠,使正被应用的数学模型失败。
2)频谱参数的相对变化
目前使用的用于计算声音信号的参数的方法起源于傅立叶变换。它假定所分析的频率是线性变化的,这意味着两个相邻频率的相对变化不是恒定的。例如,如果使用FFT算法来对以44100个采样/每秒(SPS)的速率采样的信号的1024(210)个数据的窗口进行分析,则频谱的随后(subsequent)的频率相差43.07Hz。第一个非零频率是F1=43.07Hz,下一个频率是F2=86.13Hz。最后的频率是F510=21963.9Hz,F511=22006.9Hz。在该范围的开头,频谱频率的相对变化是100%,并且没有留下识别更靠近的声音的机会。在该范围的末尾,频谱参数的相对变化是0.0019%,并且对于人耳是不可检测的。
3)参数对于频谱振幅特性的限制
基于傅立叶变换的算法使用振幅特性进行分析,特别是频谱的振幅的最大值。在具有彼此接近的不同频率的声音的情况下,该参数将会强烈地失真(distort)。在这种情况下,可以从分析信号的相位的相位特性获得额外的信息。但是,因为频谱是在被移位例如256个采样的窗口中进行分析的,所以没有什么是与计算的相位相关的。
该问题已经通过专利US5214708中描述的语音信息提取系统部分地得到了解决。该专利中公开了具有根据人耳感知模型在对数上相对于彼此间隔开的中心频率的滤波器组。由于在这些滤波器组中的任何一个的频带内仅存在一个音调(tone)的假定,信号处理领域中的不确定性原理的问题被部分地规避。根据US5214708中公开的解决方案,可以基于对每个谐波的功率的对数的测量来提取关于在每个谐波上的调制的信息,包括频域和时域波形信息。相邻滤波器中的信号的振幅的对数是使用高斯滤波器和对数放大器获得的。但是,该解决方案的缺点是,用于语音分析的函数FM(t)没有有效地提取单个语音信号的基本的特性参数。该解决方案的下一个显著得多的缺点是音频信号仅包括来自一个源的信号的假定,这样的简化显著地降低了使用这样的系统进行分解的实用可能性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于声音对象技术股份有限公司,未经声音对象技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680043427.7/2.html,转载请声明来源钻瓜专利网。