[发明专利]一种基于多模态特征结合多层注意力机制的结合视频描述方法有效

申请号：	201811092609.0	申请日：	2018-09-19
公开（公告）号：	CN109344288B	公开（公告）日：	2021-09-24
发明（设计）人：	田玲;罗光春;惠孛;刘贵松;杨彬	申请（专利权）人：	电子科技大学
主分类号：	G06F16/73	分类号：	G06F16/73;G06N3/04;G06N3/08
代理公司：	电子科技大学专利中心 51203	代理人：	周刘英
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于多模态特征结合多层注意力机制视频描述方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于多模态特征结合多层注意力机制的结合视频描述方法，其特征在于，包括下列步骤：

步骤1：数据预处理：

统计描述语句中出现的单词，形成词汇表，并为词汇表中的每个单词编号；

对每个单词进行编码，得到每个单词的二进制向量表示；

步骤2：提取多源数据特征：

通过二维卷积神经网络提取视频中的图像信息的特征，得到第一特征信息其中N₁表示提取的图像信息的特征数量；

通过三维卷积神经网络提取视频中的运动信息的特征，得到第二特征信息其中N₂表示提取的运动信息的特征数量；

提取视频中的视频语义属性的特征，得到第三特征信息其中N₃表示提取的视频语义属性的特征数量；

其中，三类特征信息中的各特征的特征维度相同；

步骤3：通过多层注意力机制来进行多模态数据动态融合：

步骤301：采用注意力机制分别关注三类特征信息F、V和A，得到当前关注后的特征信息F^(t)、V^(t)和A^(t)，其中t表示当前时刻；

其中，当前关注后的特征信息X∈{F,V,A}，特征数N∈{N₁,N₂,N₃}，表示第i个特征X_i的当前注意力权重，且

当前注意力权重向量的计算方式为：α^(t)＝softmax(e^(t))；

其中e^(t)表示通过LSTM网络的隐藏状态和特征信息X产生的未正规化权重，且e^(t)＝w_X·tanh(W_Xh^(t-1)+U_XX+b_X)，其中h^(t-1)表示LSTM网络在上一时刻的隐藏状态，w_X、W_X、U_X和b_X表示LSTM网络的输入为特征信息X时的网络参数，U_X表示输入层到隐藏层的权重矩阵，W_X表示隐藏层到隐藏层的权重矩阵，w_X表示隐藏层到输出层的权重向量，b_X表示偏置项；

步骤302：拼接三类特征信息F^(t)、V^(t)和A^(t)，得到特征拼接矩阵F_u＝[F^(t)；V^(t)；A^(t)]；

计算通过LSTM网络的隐藏状态和特征拼接矩阵F_u产生的未正规化权重ε^(t)＝w·tanh(Wh^(t-1)+UX+b)，其中w、W、U和b表示LSTM网络的输入为F_u时的网络参数，U表示输入层到隐藏层的权重矩阵，W表示隐藏层到隐藏层的权重矩阵，w表示隐藏层到输出层的权重向量，b表示偏置项；

基于当前未正规化权重ε^(t)计算各类特征的融合权重β^(t)＝softmax(ε^(t))；

基于各类特征的融合权重，对矩阵F_u按照特征维度进行加权融合，得到当前视觉信息

步骤4：根据公式Z^(t)＝γ^(t)W_zFu^(t)+(1γ^(t))U_zh^(t-1)对视觉信息进行调整，得到调整后的视觉信息Z^(t)；

其中，γ^(t)表示通过上下文信息所确定的下一个单词所需要的视觉信息的权重，W_z表示对应的输入层到隐藏层的权重矩阵，U_z表示对应的隐藏层到隐藏层的权重矩阵；

步骤5：将调整后的视觉信息Z^(t)与上一次产生的单词对应的向量y^(t-1)输入到LSTM中，得到词汇表中每个词作为当前产生的单词的概率，选取概率最大的单词作为当前产生的单词，并判断当前产生的单词是否为结束符，若是，则终止，否则继续执行步骤3，产生下一个单词。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811092609.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种信息推荐方法及相关设备
下一篇：一种基于区块链技术寻找走失儿童的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多模态特征结合多层注意力机制的结合视频描述方法有效

专利文献下载