[发明专利]一种音乐特征提取方法、装置及电子设备有效
申请号: | 201811139448.6 | 申请日: | 2018-09-28 |
公开(公告)号: | CN109285560B | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 刘思阳;蒋紫东;冯巍 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G10L25/30 | 分类号: | G10L25/30;G10L25/03 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 李欣;马敬 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音乐 特征 提取 方法 装置 电子设备 | ||
1.一种音乐特征提取方法,其特征在于,包括:
获取音乐数据,所述音乐数据是由δ个音符矩阵组成的时序序列,每个所述音符矩阵的每一行分别表示一个音符,所述音符矩阵的每一列分别表示所述音符的播放状态,δ为正整数;其中,ε个音符矩阵组成一个BEAT,ζ个BEAT组成一个BAR,η个BAR组成一个音乐曲目,所述音乐数据由一个或者多个音乐曲目组成,ε,ζ,η均为正整数;
将所述音乐数据输入预先训练好的循环神经网络,得到所述音乐数据的特征,所述音乐数据的特征包括音节BEAT特征矩阵、小节BAR特征矩阵和曲目特征向量;
所述将所述音乐数据输入预先训练好的循环神经网络,得到所述音乐数据的特征的步骤,包括:
在所述音乐数据输入所述预先训练好的循环神经网络时,确定当前输入所述预先训练好的循环神经网络的音符矩阵Mt在目标BAR中的位置信息,所述目标BAR为所述音符矩阵Mt所在的BAR;
将所述Mt在目标BAR中的位置信息转换为位置向量其中,γ表示一个BAR中含有的音符矩阵的数量;
将所述音符矩阵Mt、音符矩阵Mt之前的N个音符矩阵以及音符矩阵Mt之后的N个音符矩阵输入所述预先训练好的循环神经网络中卷积核为θ的一维卷积层,得到音符矩阵Ct∈Rа×3×θ,所述音乐矩阵Ct为与音符矩阵Mt上下文相关的音符矩阵,N为正整数;
将所述位置向量分别与音符矩阵Ct进行拼接,并将拼接得到的矩阵输入所述预先训练好的循环神经网络的第一层神经网络,得到BEAT特征矩阵,其中,所述预先训练好的循环神经网络的第一层神经网络用于对所述音乐数据中的BEAT矩阵进行特征提取,ζ个BEAT特征矩阵组成一个BAR矩阵;
将所输出的BEAT特征矩阵输入所述预先训练好的循环神经网络的第二层神经网络,得到BAR特征矩阵,其中,所述预先训练好的循环神经网络的第二层神经网络用于对所述BEAT特征矩阵进行特征提取,η个BAR特征矩阵组成一个音乐曲目;
将所述BAR特征矩阵输入所述预先训练好的循环神经网络的第三层网络,得到曲目特征向量,其中,所述预先训练好的循环神经网络的第三层网络用于对所述BAR特征矩阵进行特征提取。
2.根据权利要求1所述的方法,其特征在于,所述音符矩阵M∈Ra×3,其中,M表示所述音符矩阵,a表示所述M的行数,所述M的第一列表示所述音符是否播放,所述M的第二列表示所述音符是否被再次播放,所述M的第三列表示所述音符的播放强度。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述曲目特征向量输入所述预先训练好的循环神经网络的全连接层和softmax层,输出所述音乐数据的各个类别。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述预先训练好的循环神经网络为双向长短期记忆循环神经网络Bi-LSTM。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811139448.6/1.html,转载请声明来源钻瓜专利网。