[发明专利]基于互补特征学习框架的语音情感识别方法及装置在审
申请号: | 202110850400.1 | 申请日: | 2021-07-27 |
公开(公告)号: | CN113593537A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 唐小煜;程慧慧;郑梦云;廖润滨 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L25/63 |
代理公司: | 广州骏思知识产权代理有限公司 44425 | 代理人: | 叶琼园 |
地址: | 510006 广东省广州市番禺区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 互补 特征 学习 框架 语音 情感 识别 方法 装置 | ||
本发明涉及一种基于互补特征学习框架的语音情感识别方法及装置。本发明所述的基于互补特征学习框架的语音情感识别方法包括:构建互补特征学习框架,框架包括相互并行的第一独立特征学习通道、第二独立特征学习通道和融合特征学习通道,还包括注意力融合模块;将MFCC系数和手工制作特征分别通过独立特征学习通道进行特征提取,得到特征F1和特征F2;再将二者同时输入所述融合特征学习通道进行特征提取,得到特征F3;将特征F1、特征F2和特征F3输入所述注意力融合模块进行特征提取和细化,得到分类特征;对所述分类特征进行分类,得到最终的情感识别与分类结果。本发明所述的语音情感识别方法结合了独立训练和融合训练的优点,情感识别结果更加准确。
技术领域
本发明涉及语音情感识别领域,特别是涉及一种基于互补特征学习框架的语音情感识别方法及装置。
背景技术
深度学习是机器学习领域的一个部分,它模拟人脑进行学习和解释数据,在图像、声音和文本方面都有广泛的研究。相较于机器学习,深度学习擅于使用更多的数据或是更好的算法来提高学习的结果。目前,传统的深度学习框架主要分为单一特征和融合特征框架。单一特征是框架利用最传统的训练方式,而特征融合框架是指独立提取不同层次或分支的特征,在通过不同的融合方案后共同进行训练。与只使用一种特征的深度学习任务相比,融合特征的深度学习方法更能提高任务性能。然而,现有的研究都只注重融合在特征表达方面的优势发挥,却忽视了独立提取特征在情感识别中的表达方式不同,在一个softmax层内进行融合训练可能存在干扰的。基于此考虑,有研究者也提出了一种能够充分享手工制作特征优势和深度学习模型强大学习能力的独立训练框架,用不同的损失函数反馈来优化不同的模型,在深度学习的语音情感识别任务中性能有了很大的提升。
但独立训练的方法也有一定的不足:
1、没有充分考虑不同特征之间的相关性,忽视了共同训练方法的优势互补的特点,导致情绪信息的丢失。
2、独立训练通过简单的连接操作来实现不同通道的聚合,但这可能不是最好的选择。
发明内容
基于此,本发明的目的在于,提供一种基于互补特征学习框架的语音情感识别方法及装置、智能设备、存储介质,使用互补特征学习框架完成梅尔频率倒谱系数和手工制作特征的学习,方法综合了独立训练和融合训练提取特征的优势。
第一方面,本发明提供一种基于互补特征学习框架的语音情感识别方法,包括以下步骤:
构建互补特征学习框架,所述框架包括相互并行的第一独立特征学习通道、第二独立特征学习通道和融合特征学习通道,所述框架还包括注意力融合模块;
获取待识别语音的MFCC系数和手工制作特征;
将所述MFCC系数输入所述第一独立特征学习通道进行特征提取,得到特征F1;
将所述手工制作特征输入所述第二独立特征学习通道进行特征提取,得到特征F2;
将所述MFCC系数和所述手工制作特征同时输入所述融合特征学习通道进行特征提取,得到特征F3;
将所述特征F1、所述特征F2和所述特征F3输入所述注意力融合模块进行特征提取和细化,得到分类特征;
对所述分类特征进行分类,得到最终的情感识别与分类结果。
进一步地,将所述MFCC系数输入所述第一独立特征学习通道进行特征提取,得到特征F1,包括:
将所述MFCC系数输入两层二维卷积层中进行特征提取,得到MFCC特征图,其中,每个卷积层后连接一个归一化层;
所述MFCC特征图进行展平处理后,使用全连接层进行特征提取,使用softmax层输出,得到特征F1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110850400.1/2.html,转载请声明来源钻瓜专利网。