[发明专利]一种基于多任务学习和子域自适应的跨库语音情感识别方法在审
申请号: | 202111125098.X | 申请日: | 2021-09-25 |
公开(公告)号: | CN113870900A | 公开(公告)日: | 2021-12-31 |
发明(设计)人: | 庄志豪;刘曼;白雪杰;单帅;陶华伟;傅洪亮 | 申请(专利权)人: | 河南工业大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L15/02;G10L15/06;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 450001 河南省郑州市高新技*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 学习 自适应 语音 情感 识别 方法 | ||
1.一种基于多任务学习和子域自适应的跨库语音情感识别方法,其特征在于,包括以下步骤:
(1)特征预处理:首先选取源域语料库和目标域语料库具有相同情感类别的数据分别作为训练集和测试集,然后提取他们的声学特征,对其进行归一化处理;
(2)特征处理:将步骤(1)归一化之后得到的源域和目标域特征分别输入深度自编码器,压缩特征冗余信息,得到表征力强的低维情感特征;假设深度自编码的输入为X,解码输出为则深度自编码器的重构损失如下:
从而获取源域和目标域在低维空间中的情感表示;同时使用源域真实的情感标签和性别标签作交叉熵来优化子域空间的划分;交叉熵计算如下:
其中为预测概率;
(3)子域特征分布对齐:采用局部最大均值误差(local maximum mean discrepancy,LMMD)分别将子域特征空间划分为情感子域特征空间和性别子域特征空间;情感子域特征分布对齐算法表达为:
其中为深度自编码器编码输出的源域低维特征中每个特征属于情感类别c的权重,为深度自编码器编码输出的目标域低维特征中每个特征属于情感类别c的权重;同时对齐情感的属性特征即性别,性别子域特征分布对齐为:
其中为源域低维特征中每个特征属于性别类别a的权重,为目标域样本中每个特征属于性别类别a的权重;
(4)训练模型:整个网络训练是通过Adam优化器不断优化训练的,由源域的情感标签和性别标签分别计算交叉熵来优化步骤(3)子域空间的准确划分;整个网络的损失函数表示为:
其中和分别是深度自编码器的重构损失,和分别是源域特征的情感信息交叉熵损失和性别信息交叉熵损失,和分别是基于LMMD的情感子域特征分布距离以及性别子域特征分布距离;
(6)重复步骤(2)、(3),通过梯度下降法迭代训练网络模型,不断减小步骤(5)的损失函数,直至模型最优;
(7)利用步骤(6)训练好的网络模型,使用sofmatx分类器识别步骤(1)中未加噪的目标域特征,最终实现语音情感在跨语料库条件下的情感识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南工业大学,未经河南工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111125098.X/1.html,转载请声明来源钻瓜专利网。