[发明专利]一种基于动态卷积神经网络及脉冲神经网络的语音情感识别模型在审
申请号: | 202110773422.2 | 申请日: | 2021-07-08 |
公开(公告)号: | CN113643725A | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 耿磊;汪洋;傅洪亮;陶华伟 | 申请(专利权)人: | 河南工业大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L15/08;G10L15/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 450001 河南省郑州市高新技*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动态 卷积 神经网络 脉冲 语音 情感 识别 模型 | ||
1.本发明公布了一种基于动态卷积神经网络及脉冲神经网络的语音情感识别模型,其特征在于,包括以下步骤:
(1)语音信号预处理:将情感语料库中的语音数据按对应的情感类别标记标签,之后对每条语音进行分帧及加窗操作;
(2)语音特征提取:对步骤(1)预处理后的语音数据,提取出梅尔倒谱系数(MFCC)、过零率、基频等统计特征和log-Mel谱图特征;
(3)网络模型建构:该网络由一个动态卷积网络、一个脉冲神经网络以及融合层和分类层组成,该过程的具体实现步骤如下:
A.首先,将(2)中提取的Mel谱图特征作为动态卷积神经网络的输入;同时,将(2)提取的统计特征作为脉冲神经网络的输入;
B.将步骤(3)A中并行网络输出的两类高级特征进行拼接,并使用了加权的融合方式对两模块的输出进行融合;最后将融合后的特征送入softmax分类器中进行分类;
设每条语音的语谱图为Ni,动态卷积网络中融入了基于区间动态卷积的混合注意力机制,Cat表示水平拼接操作,Mixed-Atten(K,Q,KS,V;Nf)表示动态卷积网的输出;Ni在动态卷积网络中特征提取的过程可以用如下公式表示:
N∈Rd×k (1)
SDConv(Q,KS,V;Nf,i)=LConv(V,softmax(Nf(Q⊙KS)),i) (3)
Mixed-Atten(K,Q,KS,V;Nf)=Cat(Self-Attn(Q,K,V),SDConv(Q,KS,V;Nf)) (4)
设每条语音提取统计特征为Xi,SNN通过脉冲序列传递信息,此机制将连续值特征向量编码成脉冲序列,并对输出神经元的输出结果进行解码;本编码方案首先将输入特征通过一层加权的线性校正单元神经元如公式(6)所示,其中是输入与神经元j之间突触连接的强度,是神经元j的相应偏置项,ρ()便是激活函数;本方案还定义了自由聚集膜电位等于relu神经元的激活值并将这个量分布在编码时间窗NS上,并按照公式(7)和(8)用脉冲列表示;神经编码层输出的脉冲序列s0和脉冲计数c0可以表示为公式(9)和(10);
脉冲神经元输入输出原理如下公式表示:
s0={θ0(1),...,θ0(Ns)} (9)
SNN层的非线性变换可以表示为公式(11):
其中f(·)表示由脉冲神经元执行的转换,在给定单一放电阈值β的情况下,本发明提出简化版的脉冲计数公式(13)来近似由于脉冲的不可微分性,故采用结构完全相同的ANN与SNN的一个并行结构,将ANN的参数与SNN共享,测试阶段则有SNN独立完成;
(4)特征融合:将两个自并行网络的输出特征进行拼接并加权融合;
(5)分类识别输出:将融合后的特征输入到全连接层,经非线性变换输入分类器,然后分类器进行分类识别,计算该有监督过程的损失计算选择交叉熵损失函数;实现过程如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南工业大学,未经河南工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110773422.2/1.html,转载请声明来源钻瓜专利网。