[发明专利]一种基于多任务学习和子域自适应的跨库语音情感识别方法在审
申请号: | 202111125098.X | 申请日: | 2021-09-25 |
公开(公告)号: | CN113870900A | 公开(公告)日: | 2021-12-31 |
发明(设计)人: | 庄志豪;刘曼;白雪杰;单帅;陶华伟;傅洪亮 | 申请(专利权)人: | 河南工业大学 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L15/02;G10L15/06;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 450001 河南省郑州市高新技*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 学习 自适应 语音 情感 识别 方法 | ||
本发明提出了一种基于多任务学习和子域自适应的跨库语音情感识别方法,本发明包括以下步骤:首先,源域和目标域提取的高维语音特征分别输入深度自编码网络,压缩特征冗余信息,获取低维情感特征;然后,采用子域自适应算法将低维特征空间分别划分成情感子域特征空间和性别子域特征空间,以此来减小特征分布距离;最后,将情感识别作为主任务,性别识别作为辅助任务,学习更多共性情感信息。本发明提出的方法可以有效提升跨库语音情感识别性能。
技术邻域
本发明属于语音信号处理技术领域,具体涉及到一种基于多任务学习和子域自适应的跨库语音情感识别方法。
背景技术
语音情感识别是情感计算的重要组成部分,也是人工智能邻域重要的研究方向。语音情感识别是将人类的语音情感信号通过计算机转换为数字信号,通过计算机的学习,使其具备识别人类语音情感的能力。由于在现实应用场景中,难以保证训练数据和测试数据来自同一语料库,这就造成了训练和测试的数据特征分布存在极大的差异,严重影响了模型识别性能。
受迁移学习和多任务学习在语音情感识别邻域成功应用的启发,在跨库语音情感识别研究中引入子域自适应来减少不同领域之间特征分布的差异性,以及使用多任务学习来提升模型的泛化能力。
因此本发明主要关注于不同语料库之间的跨库语音情感识别。在低维的情感特征空间中,使用子域自适应算法来减小特征分布距离,值得注意的是,本发明同时在情感子域特征空间以及性别子域特征空间中来减小特征分布距离,以此来提升跨库语音情感识别性能。
发明内容
为了学习更多源域和目标域的相同语音情感信息,实现无监督域自适应的情感分类,提出了一种基于多任务学习和子域自适应的跨库语音情感识别方法。具体步骤如下:
(1)特征预处理:首先选取源域语料库和目标域语料库具有相同情感类别的数据分别作为训练集和测试集,然后提取他们的声学特征,对其进行归一化处理;
(2)特征处理:将步骤(1)归一化之后得到的源域和目标域特征分别输入深度自编码器,压缩特征冗余信息,得到表征力强的低维情感特征。假设深度自编码的输入为X,解码输出为则深度自编码器的重构损失如下:
从而获取源域和目标域在低维空间中的情感表示;同时使用源域真实的情感标签和性别标签作交叉熵来优化子域空间的划分。交叉熵计算如下:
其中为预测概率;
(3)子域特征分布对齐:采用局部最大均值误差(local maximum meandiscrepancy, LMMD)分别将子域特征空间划分为情感子域特征空间和性别子域特征空间。情感子域特征分布对齐算法表达为:
其中为深度自编码器编码输出的源域低维特征中每个特征属于情感类别c的权重,为深度自编码器编码输出的目标域低维特征中每个特征属于情感类别c的权重。同时对齐情感的属性特征即性别,性别子域特征分布对齐为:
其中为源域低维特征中每个特征属于性别类别a的权重,为目标域样本中每个特征属于性别类别a的权重;
(4)训练模型:整个网络训练是通过Adam优化器不断优化训练的,由源域的情感标签和性别标签分别计算交叉熵来优化步骤(3)子域空间的准确划分。整个网络的损失函数表示为:
其中和分别是深度自编码器的重构损失,和分别是源域特征的情感信息交叉熵损失和性别信息交叉熵损失,和分别是基于LMMD的情感子域特征分布距离以及性别子域特征分布距离;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南工业大学,未经河南工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111125098.X/2.html,转载请声明来源钻瓜专利网。