[发明专利]一种基于自注意力机制和CNN的音乐推荐方法在审
申请号: | 202310192158.2 | 申请日: | 2023-03-02 |
公开(公告)号: | CN116401397A | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 白小东;张学旺 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/635 | 分类号: | G06F16/635;G06N3/0464 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 cnn 音乐 推荐 方法 | ||
1.一种基于自注意力机制和CNN的音乐推荐方法,其特征在于,包括以下步骤:
S1:获取用户的音乐播放历史,并创建用户音乐历史序列;
S2:根据用户音乐历史序列,提取音乐内容特征矩阵;
S3:利用卷积神经网络对音乐序列内容进行特征处理;特征处理指的是如何将音乐多模态数据包括声乐特征、歌曲、作家、歌词等特征融合为新的网络,利用卷积神经网络的潜在空间学习它们的内在联系,最终反应到输出预测层。
S4:自注意网络层:本步骤是与S3并行的步骤,在本层处理学习纯序列数据的内在属性,其中包括多个自注意力模块,每个模块为两层全连接层,每层传递时采用自注意力机制进行连接;
S5:预测层,在获取到自注意力和卷积神经网络层的输出后实现音乐推荐任务。
2.根据权利要求1所述的一种基于自注意力机制和CNN的音乐推荐方法,其特征在于,所述步骤S1获取用户的音乐播放历史,并创建用户音乐历史序列,具体包括以下步骤:
S11:根据时间的先后顺序对用户的收听记录予以排序从而生成用户的收听序列,与此同时对音乐进行编码,每首歌曲都拥有唯一标识;
S12:选取在所有用户的序列长度最大的序列,对其他序列进行补长操作,具体为在序列的首端补0填充长度。
3.根据权利要求1或2所述的一种基于自注意力机制和CNN的音乐推荐方法,其特征在于,所述步骤S2根据用户音乐历史序列,提取音乐内容特征矩阵,具体包括以下步骤:
S21:提取相应的音乐的内容特征,具体包括频率中心、短时平均能量、过零率、梅尔频率倒谱系数、带宽;
S22:根据步骤S1生成的序列生成序列特征矩阵,其中,对特征矩阵进行移动加权平均,使其每一个序列特征矩阵处于一个平稳状态,同时使得近期值的权重变大,使预测内容更加迅速反映用户的兴趣变化。
4.根据权利要求3所述的一种基于自注意力机制和CNN的音乐推荐方法,其特征在于,在步骤S3中,利用CNN对音乐内容特征矩阵处理包括以下步骤:
S31:处理特征矩阵过程主要包括卷积层及全连接层;在输入模块之前,为符合序列特征的时序性衰减,使得最新的歌曲占有较高的权重,利用公式:其中,Ai表示第i个序列的特征矩阵,n表示某个序列特征向量的长度,j表示序列中歌曲的序号;
S32:处理好的序列数据进入卷积神经网络的卷积层,其公式表示为:其中,W表示特征矩阵的序列长度,Wfilter表示卷积核的长度,S表示卷积核步长,P表示边界层数。
5.根据权利要求4所述的一种基于自注意力机制和CNN的音乐推荐方法,其特征在于,所述步骤S31具体步骤如下:
通过音频文件对每首音乐提取特征参数,包括频率中心、短时平均能量、过零率、梅尔频率倒谱系数、带宽,其中梅尔频率倒谱系数取前后16维系数和一阶差分系数作为特性参数。
6.根据权利要求4所述的一种基于自注意力机制和CNN的音乐推荐方法,其特征在于,所述步骤S4中基于自注意力机制的神经网络具体包括以下步骤:
S41:通过用户收听的历史数据对每一个用户生成序列数据后,进行嵌入操作,为了增强数据的特征,对于每一个数据出现的位置也进行嵌入操作,两者嵌入操作后的数据进行叠加作为嵌入层的输出;
S42:每个自注意力块中包括自注意力机制和两层全连接层,而整个自注意力络包括多个自注意力块的相互叠加;自注意力机制表示为:在序列嵌入层获得Q,K,V三个矩阵,每个矩阵都是用户序列的线性映射;然后通过公式:其中计算每个向量的注意力得分,其中,d是超参数,为了缓解梯度爆炸和梯度消失的问题,学习不同序列中每首歌曲对整个序列的相关性。
7.根据权利要求6所述的一种基于自注意力机制和CNN的音乐推荐方法,其特征在于,所述步骤S4中的卷积神经网络层具体包括如下内容:
在输入音乐内容特征矩阵后,所述卷积神经网络层包括两层的卷积层、一层的正则化层、一层的全连接层,全连接层的输出作为卷积神经网络层的输出。
8.根据权利要求7所述的一种基于自注意力机制和CNN的音乐推荐方法,其特征在于,所述步骤S5中预测层具体包括如下内容:
S51:在输出自注意力网络和卷积神经网络的内容后进行拼接,从而获得两个网络的模型隐语义输出,作为预测层的输入;
S52:在经过b个自注意块和CNN特征网络的输入Ftb,给定前t首音乐预测下一首音乐,具体包括:使用矩阵分解进行预测,公式表示为ri,t=Ftb·NT,ri,t表示下一首音乐i在给定前t项音乐的相关性,N是音乐嵌入矩阵,得到一个音乐相关性得分序列,对其进行排序从而获得推荐音乐。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310192158.2/1.html,转载请声明来源钻瓜专利网。