[发明专利]一种基于音色相似度的歌曲检索方法有效

申请号：	201310074868.1	申请日：	2013-03-08
公开（公告）号：	CN103177722A	公开（公告）日：	2013-06-26
发明（设计）人：	罗森林;谢尔曼;潘丽敏;孔令志;吕英;高晓芳	申请（专利权）人：	北京理工大学
主分类号：	G10L15/08	分类号：	G10L15/08;G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于音色相似歌曲检索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种基于音色相似度的歌曲检索方法，属于多媒体信息处理技术领域；具体来讲，属于音频处理技术领域。

背景技术

音乐作为一种重要的媒体资源，音乐的检索对于音乐数据库和数字图书馆建设有着非常重要的意义。网络上多媒体资源量非常巨大，人们需要高效的搜索引擎从浩如烟海的数据中找出需要的音乐资源。另外，音乐检索在卡拉OK检索以及辅助视频检索等方面都有广阔的研究前景和巨大的应用价值。面对不断增长的海量资源与人们对音乐检索的高标准，基于背景音乐及歌唱者音色的音乐检索需求也不断增加。利用相关技术实现对于相似音乐的检索不仅可以改变现在的人工检索方式，而且歌唱者可以根据自己声音和风格利用系统检索与自己相似的歌曲，不仅可以节约大量的时间，能够取得更好的效果，同时，用户可以从大量的歌曲音乐库中自动选择自己喜爱的歌曲，满足个性化音乐检索和服务。

目前，对于歌曲的检索方法分为两大类：基于文本标注的方法和基于内容的方法。

目前实用的歌曲检索系统都使用了基于文本的方法，如百度音乐检索、九酷音乐网、搜刮网等，这种方法需要首先对歌曲库中的歌曲进行人工标注，标注出歌曲名、演唱者、歌曲分类等特征，再利用关键字匹配的方法进行查找。这种方法在实用中有着一些难以弥补的缺陷。首先，歌曲的很多特征难以用文字准确描述（例如歌唱者声音特征、歌曲风格、节奏、背景音乐音色等），因而难以针对这些特性进行检索；其次，文本匹配的检索准确性能很大程度上取决于文本标注的准确性，而很多特性（如歌曲分类、情绪等）的评价具有很强的主观性，准确性难以保证；第三，对于“以歌找歌”的相似歌曲检索需求，基于文本的方法目前还无法实现。

在基于内容的歌曲检索方面，目前常用的方法有：

1.种基于时间序列的方法。在该方法将整首歌曲中音符的组合转化为时间序列的组合，然后再计算时间序列间的距离，并将结果作为衡量歌曲间相似度的标准。该方法有利于使用DTW方法进行匹配，但是需要进行音符序列的平移和时间弯曲，还需要对每个时间序列进行匹配，时间复杂度非常高。

基于隐马尔可夫模型(HMM)的匹配算法。该方法对音高误差比较敏感，但能较好地容忍遗漏音符和节奏上的哼唱误差。基于SOM神经网络算法和基于文本特征的技术的方法等，这些方法通过用户哼唱一首乐曲的旋律片段，从音乐中提取旋律和节奏等特征信息进行搜索的。

然而，面对用户对于音色相似性的检索需求，目前可用的方法却很少。本发明就是针对这一问题提出的，用户可以根据自己喜欢的歌曲，利用检索系统检索与之音色相似的歌曲，满足个性化音乐检索和服务的需要。

发明内容

本发明的目标是：提出一种基于音色相似度的歌曲检索方法，能实现根据音色的相似度完成歌曲检索的目的。

本发明的设计原理为：采用Mel频率倒谱系数(MFCC)和高斯混合模型(GMM)算法来构造该模型，并用期望最大化(EM)算法进行训练，最终使用GMM模型匹配的方式进行检索。原理图见图1。

本发明的技术方案是通过如下步骤实现的：

步骤1，对音频库的所有S首样本歌曲进行预处理，利用音频片段平均短时能量和过零率标准偏差的融合判决方法去除歌曲中的静音部分。每首歌的处理流程如下：

步骤1.1，对音频进行分帧处理，具体方法为：

帧移长度选为半帧，窗函数选用哈明窗（Hamming Window），如下式所示。

式中α的取值根据系统部署时的实际情况来确定。

步骤1.2，计算短时能量，具体方法为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310074868.1/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于音色相似度的歌曲检索方法有效

专利文献下载