[发明专利]一种基于注意力模型的视频问答方法有效
申请号: | 201711049905.8 | 申请日: | 2017-10-31 |
公开(公告)号: | CN107818306B | 公开(公告)日: | 2020-08-07 |
发明(设计)人: | 韩亚洪;高昆 | 申请(专利权)人: | 天津大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 刘子文 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 模型 视频 问答 方法 | ||
1.一种基于注意力模型的视频问答方法,其特征在于,包括以下步骤:
(1)从互联网下载视频,并对每个视频提出问题,同时针对问题给出答案,形成视频,问答对,构成视频问答训练集;
(2)利用视频截取工具截取视频帧,并对视频帧进行采样,每一帧都是一张静态图像;
(3)构造帧模型,逐帧处理视频帧,得到视频的特征向量,其中对每个视频等间隔采样的N=26帧逐帧进行处理,每个视频帧特征向量的维度为c=512;
(4)将视频的特征向量作为长短期记忆网络的输入得到视频的场景特征表示;长短期记忆网络共有N=26个节点,在第N=26个节点,得到该长短期记忆网络的最后一个隐藏单元状态和最后一个记忆单元状态,然后将隐藏单元状态和记忆单元状态拼接起来的向量作为该视频的场景特征表示;
(5)将视频的场景特征表示作为文本模型的初始化,文本模型采用长短期记忆网络,同时,在每个节点处加入了注意力模型,通过端到端的方式进行训练,得到场景-文本模型的参数;具体步骤如下:
(501)文本模型采用长短期记忆网络,设置文本模型的记忆网络隐藏单元的维度为256,网络节点个数为M=26;
(502)将维度为512的视频的场景特征作为文本模型的初始化输入;
(503)在文本模型中,每个节点输入一个问题单词的特征表示;设给定的问题为q={q1,q2,...,qm}(m≤M),则问题单词的特征表示为:
pi=OH(qi) (1)
yi=Wepi (2)
其中,pi是问题单词qi的one hot向量表示,We矩阵将one hot向量pi转化成了de=512维的Embedding向量yi,其中,“ one hot ” 指一个向量,其中只有一位是1,其余位都是0,向量的长度表示字典的长度;“Embedding”表示对one hot 向量 进行重新编码;
即,对于问题q={q1,q2,...,qm},得到了其Embedding表示{y1,y2,...,ym};
(504)在文本模型的每个节点依次输入{y1,y2,...,ym},同时,在每个节点加入注意力机制,各个状态的更新规则为:
it=σ(Wxiyt+Whiht-1+Wrirt+bi) (3)
ft=σ(Wxfyt+Whfht-1+Wrfrt+bf) (4)
ot=σ(Wxoyt+Whoht-1+Wrort+bo) (5)
gt=φ(Wxgyt+Whght-1+Wrgrt+bg) (6)
ct=ft⊙ct-l+it⊙gt (7)
t=ot⊙φ(ct) (8)
其中,σ(·)表示sigmoid函数,φ(·)表示双曲正切函数,⊙表示元素之间的乘积,Wij是需要训练的参数,bi是偏置向量,注意力机制由rt引入,其具体的公式如下:
其中,xk为第k帧的特征向量,维度为c=512,指的是在t时刻视频帧xk的权重,该权重反映了视频帧xk与t时刻之前输入的所有问题单词的相关性,它依赖于上一时刻ht-1并由下面的公式得出:
其中,w表示要学习的参数,F表示由步骤(3)得到的维度为N×c的视频的特征向量,其中N=26表示视频帧的个数,c=512表示每个视频帧特征向量的维度;在维度为26×512的视频的特征向量上进行了二维卷积,得到了相关系数进而,对相关系数进行归一化得到了t时刻第k帧的权重
(505)由步骤(504)知,在第M=26个节点,得到了文本模型的长短期记忆网络的最后一个隐藏单元状态和最后一个记忆单元状态且维度均为256,然后将维度为512的拼接向量作为视频模型的文本特征表示;
(506)使用RMSprop梯度下降的方式优化目标函数;
(6)输入待回答问题的视频的特征向量,以及待回答问题的文本特征,通过场景-文本模型预测出合适的答案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711049905.8/1.html,转载请声明来源钻瓜专利网。