[发明专利]基于注意力融合的在线短视频多模态情感识别方法有效

申请号：	202010043993.6	申请日：	2020-01-15
公开（公告）号：	CN111275085B	公开（公告）日：	2022-09-13
发明（设计）人：	唐宏;赖雪梅;陈虹羽;李珊珊	申请（专利权）人：	重庆邮电大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06V20/40;G06V10/764;G06V10/80;G06V10/82;G06N3/04;G10L15/26;G10L25/63
代理公司：	重庆辉腾律师事务所 50215	代理人：	王海军
地址：	400065 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于注意力融合在线视频多模态情感识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于注意力融合的在线短视频多模态情感识别方法，其特征在于，包括：

S1：获取短视频中的各单模特征，即文本特征、语音特征以及图像特征；

S2：采用双向GRU网络分别对各单模特征进行预处理，得到各个单模初级特征，即初级文本特征、初级语音特征和初级图像特征；

S3：结合模态内部的各个单模初级特征和各模态之间的交互作用，得到高级文本特征、高级语音特征和高级图像特征；具体步骤包括：

S31：将初级文本特征初级语音特征和初级图像特征同时输入到一个共享的双向GRU网络，得到具有交互作用的文本特征语音特征和图像特征

S32：将模态内部的初级文本特征、初级语音特征和初级图像特征与交互作用的对应特征进行融合，得到高级文本特征F_i^T、高级语音特征F_i^A以及高级图像特征F_i^V；

S4：根据注意力机制确定各模态的贡献程度，得到总特征向量，将总特征向量输入到softmax函数中，得到基于注意力融合的双向GRU多模态情感识别模型；

S5：对基于注意力融合的双向GRU多模态情感识别模型进行优化训练，将待识别的短视频输入到训练好的模型中，得到该短视频的情感识别结果；

S6：根据得到的情感识别结果，控制该短视频是否进行上传；

其中，GRU表示门循环单元，softmax表示归一化指数函数。

2.根据权利要求1所述的一种基于注意力融合的在线短视频多模态情感识别方法，其特征在于，所述获取短视频中的各单模特征的步骤包括：

S11：使用CNN提取视频中每个话语的文本特征，得到视频i中话语j的文本特征

S12：使用openSMILE提取视频中每个话语的语音特征，得到视频i中话语j的语音特征

S13：使用3D-CNN提取视频中每个话语的图像特征，得到视频i中话语j的图像特征

S14：获取视频i中的最大话语长度L_i以及各单模特征的维度k_m，将模态m的每个话语采用一个特征向量表示，并将所有话语的特征向量存放于集合中；即

其中，CNN表示双层神经网络模型，openSMILE表示语音特征提取模型，3D-CNN表示三维神经网络模型，m∈{T,A,V}，T代表文本、A代表语音、V代表图像，表示集合的维度是L_i×k_m维。

3.根据权利要求1所述的一种基于注意力融合的在线短视频多模态情感识别方法，其特征在于，获取初级文本特征、初级语音特征和初级图像特征的过程包括：

将文本特征语音特征以及图像特征分别输入到各自的双向GRU网络中，得到初级文本特征初级语音特征以及初级图像特征

4.根据权利要求3所述的一种基于注意力融合的在线短视频多模态情感识别方法，其特征在于，所述双向GRU网络由更新门z_t和重置门r_t组成，更新门z_t决定是否要将隐藏状态更新为新的状态，重置门r_t决定是否要将之前的状态忘记；

双向GRU网络输出数据的大小为d_m维，每个话语的特征向量输入双向GRU网络，双向GRU网络的计算公式为：

其中，表示向量拼接操作，则模态m中所有话语经过双向GRU后的矩阵为：

其中，m表示是模态类型，且m∈{T,A,V}，T代表文本、A代表语音、V代表图像，L_i表示视频i中的最大话语长度，t表示视频i中的第t个话语，为视频i中模态m的第t个话语的特征表示，表示话语经过双向GRU网络后的隐藏层输出，表示前向GRU计算，表示后向GRU计算，表示矩阵的维度是L_i×2d_m维，表示模态m的初级特征。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆邮电大学，未经重庆邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010043993.6/1.html，转载请声明来源钻瓜专利网。

上一篇：同步数据通道构建方法、装置、计算机设备和存储介质
下一篇：一种汽车召回管理方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于注意力融合的在线短视频多模态情感识别方法有效

专利文献下载