[发明专利]基于注意力融合的在线短视频多模态情感识别方法有效
申请号: | 202010043993.6 | 申请日: | 2020-01-15 |
公开(公告)号: | CN111275085B | 公开(公告)日: | 2022-09-13 |
发明(设计)人: | 唐宏;赖雪梅;陈虹羽;李珊珊 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06V20/40;G06V10/764;G06V10/80;G06V10/82;G06N3/04;G10L15/26;G10L25/63 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 融合 在线 视频 多模态 情感 识别 方法 | ||
1.一种基于注意力融合的在线短视频多模态情感识别方法,其特征在于,包括:
S1:获取短视频中的各单模特征,即文本特征、语音特征以及图像特征;
S2:采用双向GRU网络分别对各单模特征进行预处理,得到各个单模初级特征,即初级文本特征、初级语音特征和初级图像特征;
S3:结合模态内部的各个单模初级特征和各模态之间的交互作用,得到高级文本特征、高级语音特征和高级图像特征;具体步骤包括:
S31:将初级文本特征初级语音特征和初级图像特征同时输入到一个共享的双向GRU网络,得到具有交互作用的文本特征语音特征和图像特征
S32:将模态内部的初级文本特征、初级语音特征和初级图像特征与交互作用的对应特征进行融合,得到高级文本特征FiT、高级语音特征FiA以及高级图像特征FiV;
S4:根据注意力机制确定各模态的贡献程度,得到总特征向量,将总特征向量输入到softmax函数中,得到基于注意力融合的双向GRU多模态情感识别模型;
S5:对基于注意力融合的双向GRU多模态情感识别模型进行优化训练,将待识别的短视频输入到训练好的模型中,得到该短视频的情感识别结果;
S6:根据得到的情感识别结果,控制该短视频是否进行上传;
其中,GRU表示门循环单元,softmax表示归一化指数函数。
2.根据权利要求1所述的一种基于注意力融合的在线短视频多模态情感识别方法,其特征在于,所述获取短视频中的各单模特征的步骤包括:
S11:使用CNN提取视频中每个话语的文本特征,得到视频i中话语j的文本特征
S12:使用openSMILE提取视频中每个话语的语音特征,得到视频i中话语j的语音特征
S13:使用3D-CNN提取视频中每个话语的图像特征,得到视频i中话语j的图像特征
S14:获取视频i中的最大话语长度Li以及各单模特征的维度km,将模态m的每个话语采用一个特征向量表示,并将所有话语的特征向量存放于集合中;即
其中,CNN表示双层神经网络模型,openSMILE表示语音特征提取模型,3D-CNN表示三维神经网络模型,m∈{T,A,V},T代表文本、A代表语音、V代表图像,表示集合的维度是Li×km维。
3.根据权利要求1所述的一种基于注意力融合的在线短视频多模态情感识别方法,其特征在于,获取初级文本特征、初级语音特征和初级图像特征的过程包括:
将文本特征语音特征以及图像特征分别输入到各自的双向GRU网络中,得到初级文本特征初级语音特征以及初级图像特征
4.根据权利要求3所述的一种基于注意力融合的在线短视频多模态情感识别方法,其特征在于,所述双向GRU网络由更新门zt和重置门rt组成,更新门zt决定是否要将隐藏状态更新为新的状态,重置门rt决定是否要将之前的状态忘记;
双向GRU网络输出数据的大小为dm维,每个话语的特征向量输入双向GRU网络,双向GRU网络的计算公式为:
其中,表示向量拼接操作,则模态m中所有话语经过双向GRU后的矩阵为:
其中,m表示是模态类型,且m∈{T,A,V},T代表文本、A代表语音、V代表图像,Li表示视频i中的最大话语长度,t表示视频i中的第t个话语,为视频i中模态m的第t个话语的特征表示,表示话语经过双向GRU网络后的隐藏层输出,表示前向GRU计算,表示后向GRU计算,表示矩阵的维度是Li×2dm维,表示模态m的初级特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010043993.6/1.html,转载请声明来源钻瓜专利网。