[发明专利]一种基于演唱者声音特质的歌曲推荐方法在审

申请号：	201710206783.2	申请日：	2017-03-31
公开（公告）号：	CN106991163A	公开（公告）日：	2017-07-28
发明（设计）人：	余春艳;苏金池;刘煌;郭文忠	申请（专利权）人：	福州大学
主分类号：	G06F17/30	分类号：	G06F17/30;G10L25/48
代理公司：	福州元创专利商标代理有限公司35100	代理人：	蔡学俊
地址：	350108 福建省福州市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于演唱者声音特质歌曲推荐方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及歌唱领域的音频信号处理方法，特别是涉及一种基于演唱者声音特质的歌曲推荐方法。

背景技术

音乐推荐系统重在向用户推荐其可能喜欢听的歌曲，采用的推荐技术主要可以分为基于内容的推荐和基于协同过滤的推荐。基于内容的推荐算法主要根据音乐自身的音频特征进行推荐，包括MFCC等底层特征或者旋律、节奏、流派、情感等特征。基于协同过滤的推荐算法主要根据用户之间的点播行为或者播放记录，以用户之间的相似性为基础进行推荐。

近年来，在移动互联网应用的快速发展和各档大型真人音乐选秀类节目的双重刺激下，音乐推荐系统从为用户推荐喜欢听的歌曲这一传统应用场景逐渐迁移，进而渗透进入为用户推荐喜欢唱的歌曲等新兴应用场景。

然而，应用场景的迁移并没有伴随着音乐推荐方法的同步迁移。以唱吧APP为例，APP中的推荐功能推荐的歌曲以当前热门歌曲为主。但是，热门歌曲并不适合所有用户演唱。有可能歌曲音调太高了，由于用户自身演唱音域范围及演唱能力的限制导致高音部分唱不上去；也有可能歌曲适合用粗犷的、有爆发力的声音去演绎，而用户却是个声音甜美的女生。

显然，新的推荐应用场景需要新的推荐模式。在K歌的应用场景下，用户不仅仅是听歌曲，更重要的是能最大程度地演绎好歌曲。这是一个双向匹配的过程，一方面，需要考虑用户自身声音的特质，例如用户实际的演唱音域及声音的音色等；另一方面，需要考虑歌曲对演唱能力的要求，例如歌曲要求的音域范围及怎样的音色更适合演绎该歌曲的情感等。

为了更好的介绍基于演唱者声音特质的歌曲推荐的概念，介绍一些相关音乐、人声理论的基本概念。

音色：音色是指声音在听觉上产生的某种属性，听音者能够据此判断两个以同样方式呈现、具有相同音高和响度的声音的不同。

音域：音域有总的音域和个别的人声或乐器的音域两种。总的音域指音列的总范围，即从最低音到最高音的范围。个别的人声或乐器的音域指某个人声或某种乐器在整个音域中所能到达的最低音到最高音的范围。乐器的音域相对固定，而人声的音域由于每个人先天的声带大小，长短、厚薄不同及后天有无经过系统的声乐训练等原因，有着较大的区别。

MIDI(Musical Instrument Digital Interface)，是一种数字音乐、乐器的通信标准。MIDI文件可以灵活的记录歌曲的音高及音长等信息，便于计算机进行音高的分析与处理。

CQT谱，一种音色频率物理特征，通过中心频率成指数分布的滤波器组，将乐音信号表示为确定音乐单音的谱能量，滤波器组的品质因子Q保持常数。

个体演唱能力包括演唱者音域范围的宽窄及在各个音级上的音准控制能力等。发声能力是演唱能力的基础，医学上利用发声范围档案记录个人的发声音域及响度动态范围。专业歌手则通过系统的声乐训练方法来提升自身的演唱能力，但普通演唱者一般不会去使用特定的训练方法。

因此，本申请基于上述分析，利用歌曲简谱和歌手清唱带等信息，建立歌曲特征文件库，提取歌曲的演唱音域和歌手的音色特征。同时利用用户演唱歌曲时的清唱录音文件与歌曲的简谱信息，在音级完成质量高的前提下，提取用户的演唱音域和音色特征。综合考虑用户的演唱音域与曲库中歌曲音域要求之间的匹配度以及用户音色与曲库中歌手音色之间的相似度，计算曲库中每首歌曲对于该用户的推荐度，并向用户推荐推荐度高的歌曲。

发明内容

有鉴于此，本发明的目的是提供一种基于演唱者声音特质的歌曲推荐方法，对演唱者与歌手之间音域相似度以及音色相似度、歌曲推荐进行分析。

本发明采用以下方案实现：一种基于演唱者声音特质的歌曲推荐方法，包括如下步骤：

步骤S1：分析曲库中歌曲的简谱信息，得到各个歌曲的MIDI音高基准序列，分析出歌曲的音级分布直方图，得到各个歌曲的演唱音域要求；

步骤S2：采用MELODIA算法分析用户清唱录音文件，得到演唱者演唱该歌曲的MIDI音高值序列，取得步骤S1中得到的同一歌曲的MIDI音高基准序列，计算演唱者的基准演唱能力，提取其演唱音域；

步骤S3：对歌手的清唱文件提取时频信号表征，输入到深度卷积神经网络中对网络进行迭代训练，得到训练好的深度卷积神经网络及人声音色嵌入空间；

步骤S4：根据歌手的清唱文件提取时频信号表征，将其输入到步骤S3中训练好的深度卷积神经网络中，网络的输出对应于人声音色嵌入空间的3维音色特征向量，将这3维音色特征向量作为原唱歌手的人声音色表征；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于福州大学，未经福州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710206783.2/2.html，转载请声明来源钻瓜专利网。