[发明专利]一种基于双向卷积循环稀疏网络的音乐情感识别方法有效

专利信息
申请号: 201910485792.9 申请日: 2019-06-05
公开(公告)号: CN110223712B 公开(公告)日: 2021-04-20
发明(设计)人: 杨新宇;董怡卓;罗晶;张亦弛;魏洁;崔宇涵;夏小景;吉姝蕾 申请(专利权)人: 西安交通大学
主分类号: G10L25/30 分类号: G10L25/30;G10L25/63;G10H1/00
代理公司: 西安通大专利代理有限责任公司 61200 代理人: 范巍
地址: 710049 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 双向 卷积 循环 稀疏 网络 音乐 情感 识别 方法
【权利要求书】:

1.一种基于双向卷积循环稀疏网络的音乐情感识别方法,其特征在于,该方法首先将音频信号转化为时频图;其次采用卷积神经网络和循环神经网络内部融合的方式建立音频时序模型来学习内含时序信息的情感显著性特征,简称SII-ASF,同时结合加权混合二进制表示法将回归问题转化为多个二分类问题降低计算复杂度;最后进行音乐的连续情感识别;具体包括以下步骤:

1)音频信号的时频图转化:包括音频文件的时频图转化和时频图的降维处理,具体有以下步骤,

1-1)音频文件的时频图转化:将每个时域音频文件分割为固定时长的不重叠片段,针对每个片段,设置固定帧长和步长的滑动窗口将其转化为时频图;具体操作为:以时长500ms的单位将每个时域音频文件分割为不重叠的片段,对于每一个分割后的音频片段,采用60ms帧长和10ms步长的滑动窗口将其转化为时频图;

1-2)时频图的降维处理:采用PCA白化方法,设置99%的数据差异性保留度对时频图的频域维度进行降维;具体操作为:以99%的数据差异性保留度进行PCA白化,将时频图频域的维度降低到45维,得到45×45大小的时频图作为BCRSN模型的输入;

2)建立音频时序模型学习内含时序信息的情感显著性特征:结合CNN自适应学习特征和RNN处理时序数据的能力构建双向卷积循环稀疏网络,简称BCRSN;通过CNN局部互连和权值共享的方式来改变模型输入层与隐藏层之间的连接,使用多个卷积核来获得双向卷积循环特征图组,简称BCRFMs;通过长短时记忆网络LSTM模块代替BCRFMs中的每个神经元来考虑BCRFMs之间的长期依赖关系,长短时记忆网络简称LSTM;具体操作为:使用64个3×1且步长为2的卷积核对时频图做时域范围内的卷积操作得到BCRFMs;BCRFMs内神经元之间存在按照音频帧的时间顺序的双向循环,某一帧的神经元的输入是其对应卷积结果与前/后一帧的神经元输出的加权和;同时利用LSTM模块修改BCRFMs中的每个神经元,通过该模块的输入、输出和遗忘门限来记忆任意时长片段的某一信息,最后用3×1大小的下采样操作降低特征图尺寸,加强模型的鲁棒性;

BCRFMs的学习,包含以下步骤:

(i)BCRSN模型输入层与正向和反向卷积循环层之间的连接以卷积核为媒介,正向和反向卷积循环层设置与CNN卷积层相同的神经元个数及排列方式,使得模型具有自适应学习不变特征的能力,通过公式(1)计算每个神经元的卷积结果:

式中,Cnt,k为第k个特征图位置(n,t)处神经元的卷积结果,n=1,2,...,(N-1)/2,t=1,2...,T;为输入层对应位置(n,t)处的二维特征矩阵,Wk为第k个卷积核的权值参数;

(ii)BCRFMs内神经元之间存在按照音频帧的时间顺序的双向循环,某一帧的神经元的输入是其对应卷积结果与前/后一帧的神经元输出的加权和;

对于正向卷积循环层的特征图,每个神经元的输入用公式(2)表示:

输出表示为公式(3):

FOnt,k=σ(FInt,k+bnt,k) (3)

对于反向卷积循环层的特征图,每个神经元的输入用公式(4)表示:

输出表示为公式(5):

BOnt,k=σ(BInt,k+bnt,k) (5)

式中表示第k个特征图前一帧t-1/t+1的所有神经元的输出结果;分别表示前向传播和后向传播过程中神经元的连接矩阵,各个音频帧之间共享权值;bnt,k为网络偏置;

(iii)使用LSTM模块修改BCRFMs中的每个神经元,通过该模块的输入、输出和遗忘门限来记忆任意时长片段的某一信息,在正向和反向卷积循环层与正向和反向池化层之间在频域范围内进行下采样操作,用3×1大小的下采样区域内的最大特征来依次代表该区域的特征,降低特征图大小;

3)回归问题转化为二分类问题:包括二进制数值的表示和稀疏处理,具体有以下步骤,

3-1)二进制数值的表示:基于数值型真实数据的表示方法,加权混合二进制表示法,将回归问题转化为多个二分类问题的加权联合以降低模型的计算复杂度;具体操作为:在BCRSN模型输出层设置L+1个神经元,得到的预测序列用O表示;其中,O1预测真实值的正负,O2~OL+1预测真实值的绝对值大小,其范围在(0,1);每个神经元作为一个二分类器,从而将损失函数计算复杂度降低为O((L+1)×12)=O(L+1),使得模型收敛更快;

采用加权混合二进制数值表示方法,包含以下步骤:

(i)新的加权混合二进制表示法将数值型真实数据g转换为混合二进制向量O*来降低计算复杂度,该向量的每一位用公式(6)计算得到:

式中g1=g;由g1值的正负决定,当g1≥0时,g1<0时,

(ii)设置输出层神经元Oi对模型损失函数的贡献权值来控制其收敛方向,提高预测精度,通过下式计算:

式中δ(·)表示损失函数的计算公式,λi表示Oi对损失函数的贡献;

3-2)稀疏处理:使用一致性相关系数作为损失函数并向CCC中增加惩罚项作为模型的目标函数来使得BCRFMs尽可能稀疏,获取SII-ASF,其中一致性相关系数简称CCC;具体操作为:使用CCC作为损失函数并向CCC中增加BCRFMs权值的Lasso惩罚项作为模型的目标函数来使得BCRFMs尽可能稀疏,获取SII-ASF;

以CCC作为损失函数以使网络得到更有区分性的训练;具体地,将每首歌分割为固定时长的片段且每个片段的真实数据转化为混合二进制向量O*,损失函数求解包含以下步骤:

(i)计算每个片段预测序列O和真实序列O*的CCC,序列样本s的预测序列fs和目标序列之间的CCC定义为:

式中Ss表示和方误差(SSE),Qs表示协方差,t表示每个标记值的时间索引,Ns表示序列s长度;基于此,以混合二进制向量的位数L+1作为每个片段的序列长度并考虑每一位对模型损失函数的贡献权值,重写公式(7)得到每个片段预测序列O和真实序列O*的CCC:

式中,O*,O分别表示片段真实的和预测的混合二进制向量,λ=(λ12,...,λL+1)表示O对片段损失函数的贡献参数集合;因此,将回归预测问题的CCC求解转化为多个二分类准确率的加权和,即从而定义:

(ii)计算每首歌的平均CCC,由其每个片段的CCC和片段数计算得到:

式中,Ns表示每首歌曲的长度,即片段数;

利用Lasso回归将某些神经元的系数置为0来删除重复相关的变量和许多噪声特征,选择出情感显著性更强的SII-ASF;具体地,在损失函数的基础上添加BCRFMs权值的Lasso惩罚项作为最终的目标函数:

式中,βF表示BCRFMs的参数集合,类似的,αF和αB是用来控制特征图稀疏度的超参数,α值越大,稀疏度越高;最小化L以删除噪声特征,选择出情感显著性特征,同时提高预测准确度;

4)音乐的连续情感识别:根据多个二分类的结果先对一个片段的音频内容进行情感识别,再对完整音乐文件的多个音频片段进行连续的情感识别。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910485792.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top