[发明专利]基于融合注意力网络的多模态情感识别方法有效
申请号: | 201910324053.1 | 申请日: | 2019-04-22 |
公开(公告)号: | CN110188343B | 公开(公告)日: | 2023-01-31 |
发明(设计)人: | 宦若虹;鲍晟霖;葛罗棋;谢超杰 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06V10/764;G06V10/80 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于融合注意力网络的多模态情感识别方法,提取文本、视觉和音频三个模态的高维特征并按字级对齐和归一化处理,然后输入至双向门控循环单元网络进行训练,提取三个单模态子网络中的双向门控循环单元网络输出的状态信息计算多模态间状态信息的相关度,再计算多个模态每一时刻的注意力分布,即每一时刻状态信息的权重参数,将三个模态子网络的状态信息和对应的权重参数加权平均得到融合特征向量作为全连接网络的输入,将待识别的文本、视觉和音频输入训练后各个模态的双向门控循环单元网络,得到最终的情感强度输出。本发明能克服多模态融合时各模态的权重一致性问题,提高多模态融合下的情感识别准确率。 | ||
搜索关键词: | 基于 融合 注意力 网络 多模态 情感 识别 方法 | ||
【主权项】:
1.一种基于融合注意力网络的多模态情感识别方法,其特征在于:所述方法包括以下步骤:步骤1,提取文本、视觉和音频三个模态的高维特征;步骤2,将视觉和音频模态的高维特征与文本模态的高维特征按字级对齐,并对文本、视觉和音频三个模态的高维特征进行归一化处理;步骤3,将字级对齐和归一化处理后的文本、视觉和音频三个模态的高维特征分别输入至双向门控循环单元网络进行训练;步骤4,提取三个单模态子网络中的双向门控循环单元网络输出的状态信息
和
其中,
是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息,包含了i时刻的前向状态输出
和后向状态输出
是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息,包含了i时刻的前向状态输出
和后向状态输出![]()
是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息,包含了i时刻的前向状态输出
和后向状态输出
步骤5,计算多模态间状态信息的相关度si,如式(1)所示:
其中
是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息,Wt是与
相关的权重参数,
是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息,Wv是与
相关的权重参数,
是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息,Wa是与
相关的权重参数,b1是与
和
相关的偏差,tanh是激活函数,V是多模态融合的权重参数,b2是多模态融合的偏差;步骤6,根据多模态间状态信息的相关度si,计算出多个模态每一时刻的注意力分布,即在i时刻的状态信息的权重参数αi,权重参数αi计算如式(2)所示:
其中softmax是归一化指数函数,exp是指数函数,Tl为意见发言视频中的单词数;步骤7,三个模态双向门控循环单元网络输出的状态信息和对应的权重参数αi进行加权平均计算得到融合特征向量H*作为下一层全连接网络的输入特征,融合特征向量H*计算如式(3)所示:
其中,Tl为意见发言视频中的单词数,
是文本模态子网络中双向门控循环单元网络在i时刻输出的状态信息,
是视觉模态子网络中双向门控循环单元网络在i时刻输出的状态信息,
是音频模态子网络中双向门控循环单元网络在i时刻输出的状态信息;步骤8,将待识别的文本、视觉和音频输入训练后的各个模态的双向门控循环单元网络,得到最终的情感强度输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910324053.1/,转载请声明来源钻瓜专利网。