[发明专利]一种基于多模态注意力机制的情感分类方法在审
申请号: | 202111368526.1 | 申请日: | 2021-11-18 |
公开(公告)号: | CN114169408A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 孔万增;郭继伟;唐佳佳;刘栋军;刘国文;崔岂铨 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 陈炜 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多模态 注意力 机制 情感 分类 方法 | ||
1.一种基于多模态注意力机制的情感分类方法,其特征在于:步骤1、获取不同情感类别下的多模态特征信息;
步骤2、对多模态特征信息进行预处理,抽取音频模态、视频模态和语言模态的初级表征hv、ha、hl;
步骤3、异构的多模态交互图的构建:
3-1.将对齐的多模态数据进行分割操作;用一个三元组(Lk,Vk,Ak)表示第k个单词对应的三个模态特征信息;将语言、视频和音频模态分别划分为其中,N代表的是划分的节点数;将Lk、Vk、Ak依次连接,形成其中M=3N;
3-2.针对每个语言模态节点分别计算其相对于自身及所有视频和音频模态节点的重要性eij如下:
其中,W为权矩阵;a(·)表示节点执行注意力机制;j∈{i}∪[N+1,M];i=1,2,...,N;
3-3.对所有相邻节点之间的重要性eij进行归一化处理,得到对应的相关系数αij;
3-4.利用不同节点之间的相关系数更新语言模态节点;第i个语言模态节点的更新表达式如下:
3-5.将一个单词更新后的所有语言模态节点拼接在一起得到多模态表示h'k如下:
3-6.通过缩放因子β补充视频和音频模态内部的连续性,得到更新的多模态表示si如下:
其中,表示逐元素相加;β为缩放因子;
3-7.偏移语言模态中单词在语义空间中的位置,获得偏移后的语言模态信息L'i如下:
L′k=Lk+sk
步骤4、利用语言模态信息L'i训练分类模型后,使用分类模型对被测者的多模态信息进行识别,获得被测者在采集多模态信息时的情感类别。
2.根据权利要求1所述的一种基于多模态注意力机制的情感分类方法,其特征在于:步骤1中,所述的多模态数据在被试执行特定情感任务下记录得到,包括语言模态、视频模态和音频模态。
3.根据权利要求1所述的一种基于多模态注意力机制的情感分类方法,其特征在于:步骤2中,音频模态、视频模态的初级表征hv、ha,通过长短期记忆网络分别处理初始的音频模态、视频模态特征信息的方式获得;语言模态的初级表征hl,通过对语言模态特征信息进行映射操作的方式获得。
4.根据权利要求1所述的一种基于多模态注意力机制的情感分类方法,其特征在于:步骤3-6中,所述的缩放因子β通过交叉验证机来确定。
5.根据权利要求1所述的一种基于多模态注意力机制的情感分类方法,其特征在于:步骤3-3中使用softmax函数进行归一化。
6.根据权利要求1所述的一种基于多模态注意力机制的情感分类方法,其特征在于:步骤4中,分类模型采用BERT算法;语言模态信息L'i输入Transformers层;进行训练。
7.一种电子设备,包括中央处理器和存储器;其特征在于:所述存储器存储有能够被所述处理器执行的机器可执行指令,所述中央处理器执行所述机器可执行指令以实现权利要求1-6任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111368526.1/1.html,转载请声明来源钻瓜专利网。