[发明专利]用于使用目标时域包络来处理音频信号以获得经处理的音频信号的装置和方法有效

申请号：	201680013372.5	申请日：	2016-02-23
公开（公告）号：	CN107517593B	公开（公告）日：	2021-03-12
发明（设计）人：	克里斯蒂安·迪特马尔;梅纳德·穆勒;萨沙·迪施	申请（专利权）人：	弗劳恩霍夫应用研究促进协会
主分类号：	G10L19/03	分类号：	G10L19/03;G10L21/0272;G10L21/0388;G10L25/03
代理公司：	中科专利商标代理有限责任公司 11021	代理人：	罗松梅
地址：	德国***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于使用目标时域包络处理音频信号获得装置方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及用于处理音频信号以获得经处理的音频信号的装置和方法。实施例还示出了包括该装置在内的音频解码器和相应音频编码器、均包括该装置在内的音频源分离处理器和带宽增强处理器。根据其它实施例，示出了在信号重构中的瞬态恢复和在得分通知(score-informed)的音频分解中的瞬态恢复。

背景技术

将叠加声音源的混合分离为其构成分量的任务在数字音频信号处理中已变得重要。在语音处理中，这些分量通常是受到噪声或同时说话人的干扰的目标说话者的话音。在音乐中，这些分量可以是单独的乐器或人声旋律、打击乐器、或甚至是个别音符事件。相关课题是信号重构和瞬态保存以及得分通知的音频合成(即，源分离)。

音乐源分离目的是将和弦多音色音乐录音分解成诸如唱歌声音、乐器旋律、打击乐器、或混合信号中出现的个别音符事件之类的分量信号。除了作为很多音乐分析和检索任务中的重要步骤之外，音乐源分离还是诸如音乐恢复、上混音(upmixing)和再混音(remixing)之类的应用的基本先决条件。为了这些用途，需要在经分离的分量的感知质量方面的高度保真。现有分离技术的主流是对混合信号的时间-频率(TF)表示进行处理，经常是短时傅立叶变换(STFT)。目标分量信号通常是使用合适的逆变换来重构的，其进而可能引入可听伪像(artifact)，例如音乐噪声、模糊瞬态或预回声。现有方案受制于具有音乐噪声、模糊瞬态或预回声形式的可听伪像。这些伪像经常打扰人类听者。

近来存在多篇关于音乐源分离的论文。在大多数方案中，通过修改量值谱图在时间-频率(TF)域中执行分离。经分离的分量的相应时域信号是通过使用原始相位信息并应用合适的逆变换来导出的。当争取经分离的独奏信号的良好感知质量时，很多作者回到得分通知的分解技术上。其具有以下优点：可以通过与分量信号在时间(开始(onset)、移位(offset))和频率(音高(pitch)、音色(timbre))中的近似位置有关的信息来指导分离。很少有出版物处理诸如鼓之类的瞬态信号的源分离。其它出版物关注于对谐波分量相对于打击分量的分离[5]。

此外，在感知音频编码领域中已考虑到了预回声的问题，其中，预回声通常是由以下引起的：使用相对长的分析和合成窗口，结合对TF区间(bin)的中间操作(例如根据心理声学模型的频谱量值的量化)。在瞬态事件的邻域中使用块切换可被视为最先进技术[6]。在[13]中提出了有趣的方案，其中，沿频率轴通过线性预测对频谱系数进行编码，自动减少了预回声。稍后的工作提出将信号分解为瞬态和残余分量，并针对每个流使用优化编码参数[3]。在基于相位声码器(phase-vocoder)的时间尺度修改方法的上下文中已调查了瞬态保留。除了对瞬态分量的优化处理之外，若干作者遵循了对瞬态帧中的相位进行相位锁定或重新初始化的原则[8]。

信号重构的问题(也被称为量值谱图反演或相位估计)是经过深入研究的课题。在它们的经典论文[1]中，Griffin和Lim提出了所谓的LSEE-MSTFTM算法，其用于根据经修改的STFT量值(MSTFTM)谱图来进行迭代的盲信号重构。在[2]中，Le Roux等人通过使用TF一致性标准对其进行描述而开发了与该方法有关的不同视角。通过将必要操作完全保持在TF域中，可以引入若干种简化和近似，其与原始过程相比降低了计算负载。由于使用LSEE-MSTFTM来获得的相位估计仅在局部最优处收敛，若干出版物考虑找到用于相位信息的良好初始估计[3，4]。Sturmel和Daudet[5]提供了信号重构方法的深入回顾并指出了未解决的问题。在[6]中提出了对LSEE-MSTFTM的与收敛速度有关的扩展。其他作者尝试将相位估计问题归纳为凸(convex)优化方案，并得到了令人振奋的结果，尽管受到高计算复杂度的约束[7]。另一工作[8]考虑对来自基于小波的量值谱图的信号重构应用谱图一致性框架。

然而，用于信号重构的上述方案都有以下问题：音频信号的快速改变(其对于瞬态来说是常见的)可能经受较早描述的伪像，例如预回声。

因此，需要改进的方法。

发明内容

本发明的目的是提供用于处理音频信号的改进概念。该目的是通过独立权利要求的主题来解决的。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于弗劳恩霍夫应用研究促进协会，未经弗劳恩霍夫应用研究促进协会许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201680013372.5/2.html，转载请声明来源钻瓜专利网。

上一篇：提供骨、骨髓及软骨的诱导的因子和细胞
下一篇：故障检测装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L19-00 用于冗余度下降情形
G10L19-02 .利用频谱分析，例如变换声码器或子频带声码器
G10L19-04 .利用预测技术
G10L19-06 ..例如短期预测系数的频谱特征的确定或编码
G10L19-08 ..激励函数的确定或编码；长期预测参数的确定或编码
G10L19-14 ..不包括在G10L 19/06至G10L 19/12组中的零部件，例如增益编码、后置滤波设计或声码器结构

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于使用目标时域包络来处理音频信号以获得经处理的音频信号的装置和方法有效

专利文献下载