[发明专利]一种基于深度域适应性卷积神经网络的跨库语音情感识别方法有效
申请号: | 201910583878.5 | 申请日: | 2019-07-01 |
公开(公告)号: | CN110390955B | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 郑文明;刘佳腾;宗源;路成 | 申请(专利权)人: | 东南大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/30;G10L25/18 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 冯艳芬 |
地址: | 211102 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 适应性 卷积 神经网络 语音 情感 识别 方法 | ||
1.一种基于深度域适应性卷积神经网络的跨库语音情感识别方法,其特征在于该方法包括:
(1)获取两个语言不同的语音数据库,分别作为训练数据库和测试数据库,其中,每个语音数据库中包括有若干语音信号和对应的情感类别标签;
(2)将训练数据库和测试数据库中的语音信号分别进行预处理,得到每段语音信号的频谱图;
(3)建立深度域适应性卷积神经网络,所述深度域适应性卷积神经网络包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第一全连接层、第二全连接层和softmax层;
(4)将训练数据库和测试数据库的语音信号频谱图分别输入建立的深度域适应性卷积神经网络进行训练,其中,在训练网络时,先计算训练数据库语音信号频谱图对应的全连接层输出和测试数据库语音信号频谱图对应的全连接层输出之间的最大均值差异,之后计算训练数据库语音信号频谱图对应的softmax层输出以及其情感类别标签之间的交叉熵,最后将最大均值差异和交叉熵相加作为网络损失采用反向传播算法更新网络参数,完成网络训练;
(5)将待识别的语音信号进行预处理,得到其频谱图,并将频谱图输入训练好的深度卷积神经网络,输出中维数最大的类别即为识别的情感类别。
2.根据权利要求1所述的基于深度域适应性卷积神经网络的跨库语音情感识别方法,其特征在于:步骤(3)中所述第一卷积层的输入和输出间以及所述第二卷积层的输入和输出间的关系式为:
YC1=φ(conv(WC1,XC1)+bC1)
式中,YC1表示第一卷积层输出,XC1表示第一卷积层输入,WC1、bC1分别为权重参数、偏置参数,通过网络训练得到,conv()表示卷积函数,φ为激活函数,且φ(·)=max(0,·);
YC2=φ(conv(WC2,XC2)+bC2)
式中,YC2表示第二卷积层的输出,XC2表示第二卷积层的输入,WC2、bC2分别为权重参数、偏置参数,通过网络训练得到。
3.根据权利要求1所述的基于深度域适应性卷积神经网络的跨库语音情感识别方法,其特征在于:步骤(3)中所述第一全连接层的输入和输出间以及第二全连接层的输入和输出间的关系式为:
Yd1=φ(Wd1Xd1+bd1)
式中,Yd1表示第一全连接层的输出,Xd1表示第一全连接层的输入,Wd1、bd1分别为权重参数、偏置参数,通过网络训练得到,φ为激活函数,且φ(·)=max(0,·);
Yd2=φ(Wd2Xd2+bd2)
式中,Yd2表示第二全连接层的输出,Xd2表示第二全连接层的输入,Wd2、bd2分别为权重参数、偏置参数,通过网络训练得到。
4.根据权利要求1所述的基于深度域适应性卷积神经网络的跨库语音情感识别方法,其特征在于:步骤(4)中所述训练数据库语音信号频谱图对应的全连接层输出和测试数据库语音信号频谱图对应的全连接层输出之间的最大均值差异的计算方法为:
式中,MMD(Ds,Dt)为Ds、Dt的最大均值差异,为训练数据库语音信号频谱图对应的全连接层输出,元素为M个,为测试数据库语音信号频谱图对应的全连接层输出,元素为N个,k()表示高斯核函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910583878.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语音产品质量的评价方法和装置
- 下一篇:情感识别网络模型、方法及电子设备