[发明专利]一种基于迁移学习和多损失动态调整的跨库语音情感识别方法在审
申请号: | 202111117676.5 | 申请日: | 2021-09-23 |
公开(公告)号: | CN113851148A | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 庄志豪;刘曼;汪洋;陶华伟;傅洪亮 | 申请(专利权)人: | 河南工业大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L15/02;G10L25/30;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 450001 河南省郑州市高新技*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 迁移 学习 损失 动态 调整 语音 情感 识别 方法 | ||
本发明公开了一种基于迁移学习和多损失动态调整的跨库语音情感识别方法,本发明包括以下步骤:首先,搭建基于深度去噪自编码和深度神经网络的深度网络模型,用于压缩特征冗余信息和提高特征表征能力;然后,采用全局域及子域自适应方法实现特征迁移,同时减小样本不平衡问题对模型识别性能的影响;最后在训练阶段,构建动态权重因子来调整不同损失函数的贡献度,实现模型的优化。本发明提出的方法可以有效学习样本不平衡语料库的共性情感信息,减小特征分布差异。
技术邻域
本发明属于语音信号处理技术领域,具体涉及到一种基于迁移学习和多损失动态调整的跨库语音情感识别方法。
背景技术
语音情感识别是人机交互的重要技术基础。传统的语音情感识别研究往往是基于同一个语料库进行训练和测试,已经取得了非常好的识别效果。然而,由于不同语料库的录制环境、人员性别、年龄分布、语言等不同,造成不同语料库的语音特征分布存在极大的差异,这是一个典型的跨库语音情感识别问题。因此,如何有效地处理跨语料库训练带来的特征分布差异是语音情感识别研究中一个非常重要且极具挑战的问题。
受迁移学习在诸如文本分类与聚类、图像分类、传感器定位、协同过滤等成功应用的启发,在跨库语音情感识别研究中引入域自适应来减少不同领域之间特征分布的差异性。
因此本发明主要关注于不同语料库之间的跨库语音情感识别。首先,本发明基于深度去噪自编码器和深度神经网络搭建的深度网络模型来获取低维的语音情感特征。其中深度去噪自编码器是可以有效压缩特征冗余信息,并提升模型鲁棒性;深度神经网络具备强大的非线性拟合能力,可以有效的提升语音特征的情感表征能力。然后引入MMD和LMMD同时减小特征分布距离,同时缓解样本不平衡对模型识别性能的影响。最后在训练阶段,利用动态权重因子来动态调整不同损失函数对模型优化的贡献。
发明内容
为了解决不同语料数据库之间特征分布差异的问题,更好地将带标记源域数据的知识迁移到无标记目标域,实现无标记数据的准确分类,提出了一种基于迁移学习和多损失动态调整的跨库语音情感识别方法。具体步骤如下:
(1)准备语料库:获取两个样本不平衡的语料库,分别作为源域数据库和目标域数据库,其中,源域数据库包括有若干语音信号和对应的情感类别标签,目标域数据库包括有若干语音信号;
(2)语音预处理:将源域数据库和目标域数据库中的语音信号进行预处理,为下一步提取特征做准备;
(3)语音特征提取:对步骤(2)预处理完毕后的语音信号,提取语音情感特征,该特征包括但不限于MFCC、短时平均过零率、基频、均值、标准差、最大最小值等;
(4)特征处理:首先,将步骤(3)得到的源域特征源域特征对应的标签和目标域特征随后在Xs和XT中加入服从正太分布的噪音之后输入深度自编码器进行特征重构处理:
其中和为经过深度自编码器解码重构之后的样本特征。然后,将深度自编码器的编码输出输入深度神经网络作进一步处理,从而分别源域和目标域的低维情感特征和最后使用源域的真实标签Ys与经过softmax分类器预测的源域特征概率作交叉熵运算:
(5)特征迁移:首先,采用最大均值差异(maximum mean discrepancy,MMD)算法来减小X′S和X′T的全局域特征分布距离:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南工业大学,未经河南工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111117676.5/2.html,转载请声明来源钻瓜专利网。