[发明专利]复杂度可缩放的感知节拍估计有效
申请号: | 201080048994.4 | 申请日: | 2010-10-26 |
公开(公告)号: | CN102754147A | 公开(公告)日: | 2012-10-24 |
发明(设计)人: | A·比斯沃斯;D·霍洛斯;M·舒格 | 申请(专利权)人: | 杜比国际公司 |
主分类号: | G10H1/40 | 分类号: | G10H1/40 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 康建忠 |
地址: | 荷兰阿*** | 国省代码: | 荷兰;NL |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 复杂度 缩放 感知 节拍 估计 | ||
技术领域
本申请涉及用于估计诸如音频或组合视频/音频信号之类的媒体信号的节奏(tempo)的方法和系统。特别地,该申请涉及由人类听众感知的节奏的估计,以及用于以可缩放的计算复杂度进行节奏估计的方法和系统。
背景技术
例如PDA、智能电话、移动电话和便携式媒体播放器的便携式手持设备通常包括音频和/或视频再现(render)能力并且已经变成重要的娱乐平台。此发展由无线或有线传输能力在这样的设备中的逐渐渗透推进。由于诸如HE-AAC格式之类的媒体传输和/或存储协议的支持,媒体内容可以被连续下载并存储到便携式手持设备上,从而提供实际上无限量的媒体内容。
但是,由于有限的计算功率和能量消耗是重要的约束,因此低复杂度的算法对于移动/手持设备是关键性的。这些约束对于新兴市场中的低端便携式设备更加关键。考虑到在通常的便携式电子设备上可用的海量媒体文件,为了对媒体文件聚类(cluster)或分类从而使得便携式电子设备的用户能够识别例如音频、音乐和/或视频文件的合适的媒体文件,MIR(音乐信息检索)应用是期望的工具。用于这样的MIR应用的低复杂度的计算方案是期望的,这是因为否则,它们在具有有限计算和功率资源的便携式电子设备上的可用性将受到损害。
用于各种MIR应用(例如风格(genre)和情感(mood)分类、音乐概括(summarization)、音频缩略化、自动播放列表生成和使用音乐相似性的音乐推荐系统等等)的重要的音乐特征是音乐节奏。因而,具有低计算复杂度的用于节奏确定的过程将有助于对于移动设备的所提到的MIR应用的分散实施的发展。
此外,虽然通常通过以BPM(每分钟拍数)计的活页乐谱或乐谱上的标记节奏(notated tempo)来表征音乐节奏,但是此值通常不对应于感知节奏(perceptual tempo)。例如,如果一群听众(包括熟练的音乐家)被要求评注音乐选段的节奏,则他们通常给出不同的答案,即他们通常以不同的度量水平(metrical level)拍击。对于一些音乐选段,感知的节奏较不含糊,并且所有听众通常以相同的度量水平拍击,但是对于其它音乐选段,节奏可能是含糊的,并且不同的听众识别不同的节奏。换句话说,感知实验已经显示感知的节奏可能不同于标记节奏。一段音乐可能感觉比它的标记节奏快或慢,因为占优势的感知的律动(pulse)可能是比标记节奏高或低的度量水平。鉴于MIR应用应当优选地考虑最有可能被用户感知的节奏这一事实,自动节奏提取器应当预测音频信号的在感知上最突出的节奏。
已知的节奏估计方法和系统具有各种缺点。在很多情况下,它们限于特别的音频编解码器,例如MP3,并且不能应用于利用其他编解码器编码的音轨。此外,这样的节奏估计方法通常仅仅在应用于具有简单明了的旋律结构的西方流行音乐上时才能正常工作。另外,已知的节奏估计方法没有考虑感知方面,即它们没有针对估计最有可能被听众感知的节奏。最后,已知的节奏估计方案通常在未压缩PCM域、变换域或压缩域中的仅仅之一中工作。
期望的是提供克服已知节奏估计方案的上述缺点的节奏估计方法和系统。特别地,期望的是提供编解码器不可知的和/或可适用于任何类型的音乐风格的节奏估计。此外,期望的是提供一种估计音频信号的在感知上最突出的节奏的节奏估计方案。此外,期望一种可应用于上述域(即未压缩的PCM域、变换域和压缩域)中的任何一个中的音频信号的节奏估计方案。还期望提供具有低计算复杂度的节奏估计方案。
节奏估计方案可以用于各种应用中。由于节奏是音乐中的基础语义信息,因此这样的节奏的可靠估计将提高例如自动的基于内容的风格分类、情感分类、音乐相似、音频缩略化和音乐概括之类的其他MIR应用的性能。此外,感知节奏的可靠估计对于音乐选择、比较、混合和播放列表化是有用的统计。值得注意的是,对于自动播放列表生成器或音乐导航仪或DJ装置,感知节奏或感觉通常比标记的或物理的节奏更相关(relevant)。此外,对于感知的节奏的可靠估计可以对游戏应用有用。举例来说,音带节奏可以用于控制相关的游戏参数,例如游戏的速度,反之亦然。这可以用于使用音频来个性化游戏内容并且用于为用户提供增强的体验。进一步的应用领域可以是基于内容的音频/视频同步,其中音乐节拍(beat)或节奏是用作用于定时事件的锚标(anchor)的首要信息源。
应当注意,在本申请中,术语“节奏”被理解为触觉律动(pulse)的速率。此触觉也被称为脚拍击速率,即听众在收听例如音乐信号的音频信号时拍击他们的脚的速率。这不同于定义音乐信号的层级结构的音乐计量。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杜比国际公司,未经杜比国际公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201080048994.4/2.html,转载请声明来源钻瓜专利网。