[发明专利]基于融合注意力网络的多模态情感识别方法有效

申请号：	201910324053.1	申请日：	2019-04-22
公开（公告）号：	CN110188343B	公开（公告）日：	2023-01-31
发明（设计）人：	宦若虹;鲍晟霖;葛罗棋;谢超杰	申请（专利权）人：	浙江工业大学
主分类号：	G06F40/205	分类号：	G06F40/205;G06V10/764;G06V10/80
代理公司：	杭州斯可睿专利事务所有限公司 33241	代理人：	王利强
地址：	310014 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种基于融合注意力网络的多模态情感识别方法，提取文本、视觉和音频三个模态的高维特征并按字级对齐和归一化处理，然后输入至双向门控循环单元网络进行训练，提取三个单模态子网络中的双向门控循环单元网络输出的状态信息计算多模态间状态信息的相关度，再计算多个模态每一时刻的注意力分布，即每一时刻状态信息的权重参数，将三个模态子网络的状态信息和对应的权重参数加权平均得到融合特征向量作为全连接网络的输入，将待识别的文本、视觉和音频输入训练后各个模态的双向门控循环单元网络，得到最终的情感强度输出。本发明能克服多模态融合时各模态的权重一致性问题，提高多模态融合下的情感识别准确率。
搜索关键词：	基于融合注意力网络多模态情感识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于融合注意力网络的多模态情感识别方法，其特征在于：所述方法包括以下步骤：步骤1，提取文本、视觉和音频三个模态的高维特征；步骤2，将视觉和音频模态的高维特征与文本模态的高维特征按字级对齐，并对文本、视觉和音频三个模态的高维特征进行归一化处理；步骤3，将字级对齐和归一化处理后的文本、视觉和音频三个模态的高维特征分别输入至双向门控循环单元网络进行训练；步骤4，提取三个单模态子网络中的双向门控循环单元网络输出的状态信息和其中，是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息，包含了i时刻的前向状态输出和后向状态输出是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息，包含了i时刻的前向状态输出和后向状态输出是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息，包含了i时刻的前向状态输出和后向状态输出步骤5，计算多模态间状态信息的相关度s_i，如式(1)所示：其中是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息，W_t是与相关的权重参数，是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息，W_v是与相关的权重参数，是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息，W_a是与相关的权重参数，b₁是与和相关的偏差，tanh是激活函数，V是多模态融合的权重参数，b₂是多模态融合的偏差；步骤6，根据多模态间状态信息的相关度s_i，计算出多个模态每一时刻的注意力分布，即在i时刻的状态信息的权重参数α_i，权重参数α_i计算如式(2)所示：其中softmax是归一化指数函数，exp是指数函数，T_l为意见发言视频中的单词数；步骤7，三个模态双向门控循环单元网络输出的状态信息和对应的权重参数α_i进行加权平均计算得到融合特征向量H^*作为下一层全连接网络的输入特征，融合特征向量H^*计算如式(3)所示：其中，T_l为意见发言视频中的单词数，是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息，是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息，是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息；步骤8，将待识别的文本、视觉和音频输入训练后的各个模态的双向门控循环单元网络，得到最终的情感强度输出。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江工业大学，未经浙江工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910324053.1/，转载请声明来源钻瓜专利网。

上一篇：一种基于知识图谱与语义图技术的口语理解方法
下一篇：一种多特征融合的关键词提取方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于融合注意力网络的多模态情感识别方法有效

专利文献下载