[发明专利]一种基于迁移学习和多损失动态调整的跨库语音情感识别方法在审
申请号: | 202111117676.5 | 申请日: | 2021-09-23 |
公开(公告)号: | CN113851148A | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 庄志豪;刘曼;汪洋;陶华伟;傅洪亮 | 申请(专利权)人: | 河南工业大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L15/02;G10L25/30;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 450001 河南省郑州市高新技*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 迁移 学习 损失 动态 调整 语音 情感 识别 方法 | ||
1.一种基于迁移学习和多损失动态调整的跨库语音情感识别方法,其特征在于,包括以下步骤:
(1)准备语料库:获取样本不平衡的语料库,分别作为源域数据库和目标域数据库,其中,源域数据库包括有若干语音信号和对应的情感类别标签,目标域数据库包括有若干语音信号;
(2)语音预处理:将源域数据库和目标域数据库中的语音信号进行预处理,为下一步提取特征做准备;
(3)语音特征提取:对步骤(2)预处理完毕后的语音信号,提取语音情感特征,该特征包括但不限于MFCC、短时平均过零率、基频、均值、标准差、最大最小值等;
(4)特征处理:首先,将步骤(3)得到的源域特征源域特征对应的标签和目标域特征随后在Xs和XT中加入服从正太分布的噪音之后输入深度自编码器进行特征重构处理:
其中和为经过深度自编码器解码重构之后的样本特征;然后,将深度自编码器的编码输出输入深度神经网络作进一步处理,从而分别源域和目标域的低维情感特征和最后使用源域的真实标签Ys与经过softmax分类器预测的源域特征概率作交叉熵运算:
(5)特征迁移:首先,采用最大均值差异(maximum mean discrepancy,MMD)算法来减小X′S和X′T的全局域特征分布距离:
其中H为再生核希尔伯特空间(reproducing kernel hillbert space,RKHS),δ(·)为特征映射函数(高斯核函数);然后,采用局部最大均值差异(local maximum meandiscrepancy,LMMD)同时来来减小X′S和X′T的全局域特征分布距离:
其中为源域样本中每个样本属于情感类别C的权重,为目标域样本中每个样本属于情感类别C的权重;
(6)模型训练:根据上述步骤(4)和(5)得到的五个损失函数,再利用动态权重因子wi来调整不同损失函数对模型优化的贡献,进而得到模型整体的优化目标为:
动态权重因子表示为:
其中i∈{S,T,y,MMD,LMMD},αi>0;
(7)重复步骤(4)、(5),通过梯度下降法迭代训练网络模型,不断更新步骤(6)的动态权重因子,直至模型最优;
(8)利用步骤(7)训练好的网络模型,使用sofmatx分类器预测步骤(3)中的目标域特征标签,最终实现语音情感在跨语料库条件下的情感识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南工业大学,未经河南工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111117676.5/1.html,转载请声明来源钻瓜专利网。