[发明专利]音频处理装置和方法以及程序无效

专利信息
申请号: 201110317773.9 申请日: 2011-10-11
公开(公告)号: CN102456342A 公开(公告)日: 2012-05-16
发明(设计)人: 内野学;高桥秀介;井上晃 申请(专利权)人: 索尼公司
主分类号: G10L11/00 分类号: G10L11/00;G10H1/00
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 王萍;陈炜
地址: 日本*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 音频 处理 装置 方法 以及 程序
【说明书】:

技术领域

本公开涉及音频处理装置和方法以及程序,更具体地,涉及能够高精度地从由乐曲形成的音频信号提取符尾(hook)的音频处理装置和方法以及程序。

背景技术

近来,如移动电话所代表的,无处不在的联网的时代已经到来,其中可以随时随地接入互联网,个人享受方式和生活方式已多样化。其中,如果将目光转向由乐曲等形成的音乐,直到最近,通常使用将购买的音乐专辑致密盘(CD)导入磁带或者迷你盘(MD)并且在诸如地铁或街道的户外使用音频播放器收听音乐的方式。然而,近来,由于已引入包括诸如闪速存储器的大容量存储介质的音频播放器,因此通常使用导入和观看大容量存储介质中的数千首(或数万首)乐曲的方式。具有网络功能并且包括音频播放器的移动装置即便在户外仍可以接入互联网以便收听或购买音乐。

通过这种方式,可以随意地保持并且在户外随意地传输大量的乐曲。然而,有必要在没有来自难以衡量的大量的乐曲的压力的情况下容易地搜索期望的乐曲。

就是说,当选择乐曲时,用户收听乐曲的开头,并且通过选择歌曲标题或艺术家,确定用户是否将收听该乐曲。然而,由于大部分乐曲的开头是伴奏,因此难于确定其是否是期望的乐曲。如果存在大量的乐曲,则用户可能遇到他们不能辨别的乐曲,并且可能丧失在期望时间收听期望乐曲的机会。

作为用于解决该问题的方法,存在一种通过再现作为乐曲的高潮部分的“符尾”部分来增强可搜索性的方法。由于“符尾”是乐曲的高潮部分,因此符尾给用户强烈的印象。因而,通过当选择乐曲时高精度地检测符尾并且再现符尾,可以增强乐曲的可搜索性。如音乐排行榜电视节目中的那样,依次再现符尾变为一种音乐享受方法。

作为检测符尾的方法,提出了一种通过自相关来计算相似性以提取符尾的方法(参见日本专利第4243682号)。

作为通过将注意力集中在音频信号水平来检测音频变化点并且提取符尾的方法,提出了一种根据包括作为特征值的均方根等的评估函数的最大值检测音频变化点并且提取符尾的方法(参见日本专利第3886372号)。

提出了一种使用音频信号水平作为特征值的方法,即通过区分变化量的阈值或该水平来检测音频变化点,并且从时间分布的相似区间或者音频变化点的间隔的组合提取符尾的方法(参见日本未审专利申请公布第2008-262043号)。

发明内容

然而,日本专利第4243682号的方法基于如下前提:“符尾”具有乐曲中最高的出现频率,并且被重复地再现。该方法基于乐曲的性质而有效,但是,依赖于乐曲,重复最多的部分可能不是“符尾”。就是说,存在如下乐曲,其中重复最多的部分是旋律A。此外,用于提取特征值或者计算相似性的处理负担是大的。

日本专利第3886372号和日本未审专利申请公布第2008-262043号的方法基于乐曲的如下性质:“符尾”的音频信号水平大于“旋律A”或“间奏”的音频信号水平,但是处理结构比日本专利第4243682号的方法简单,由此增加了处理速度。

然而,尽管实际乐曲的时间音频信号水平具有剧烈的起伏,并且曲调或节奏(每分钟的拍数;BPM)取决于乐曲,但是日本专利第3886372号和日本未审专利申请公布第2008-262043号没有应对这些问题。音频变化点被过度地检测,或者错误地检测突然大的音频信号水平而非符尾,使得符尾易于被错误检测。如果特征值计算的粒度被设定为粗略的(如果设定了长的处理时间长度),则减小了时间音频信号水平的起伏,但是时间分辨率劣化。因而,有必要适当地调整处理时间长度。此外,有必要考虑突然大的音频信号的处理。

期望基于音频信号准确地检测音频变化点并且高精度地高速提取符尾地点。

根据本公开的一个实施例,提供了一种音频处理装置,包括:音频信号获取单元,被配置为获取乐曲的音频信号;特征值提取单元,被配置为以时间序列从音频信号获取单元获取的音频信号中提取预定类型的特征值;变化点检测单元,被配置为检测其中特征值提取单元以时间序列提取的特征值的变化量变为大于预定阈值的变化点;符尾分析单元,被配置为基于特征值提取单元以边界为变化点检测单元检测到的变化点的块为单位提取的特征值,分析音频信号的符尾地点;以及符尾信息输出单元,被配置为输出符尾分析单元分析的符尾地点作为符尾信息。

特征值的类型可以包括立体声和信号的均方根、立体声差信号的均方根、立体声和信号的幅度的平方和以及立体声差信号的幅度的平方和中的任何一个或者它们的组合。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110317773.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top