[发明专利]一种基于语义分解的短视频事件检测方法有效
申请号: | 202010383987.5 | 申请日: | 2020-05-08 |
公开(公告)号: | CN111723649B | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 吕卫;李德盛;井佩光;苏育挺 | 申请(专利权)人: | 天津大学 |
主分类号: | G06V10/80 | 分类号: | G06V10/80;G06V20/40;G06K9/62;G06N3/04 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李林娟 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 分解 视频 事件 检测 方法 | ||
1.一种基于语义分解的短视频事件检测方法,其特征在于,所述方法包括:
将短视频多模态的原始特征向量与其对应的标签词向量相结合,得到语义分解后的多模态特征向量;
将语义分解后的多模态特征向量按模态输入到不同的自动编码器中,并将自动编码器的中间层作为输出,最小化不同自动编码器输出的差距,得到多模态融合后的特征向量;
将多模态融合后的特征向量作为节点初值输入到图神经网络中进行迭代更新,得到节点隐藏信息;
将图神经网络迭代完成后的节点隐藏信息输出到分类器中,得到最终的事件检测结果;
其中,所述将短视频多模态的原始特征向量与其对应的标签词向量相结合,得到语义分解后的多模态特征向量具体为:
s.t.v=1,2,...,V i=1,2,...,N,j=1,2,...,C
其中,v为模态序号,i为短视频样本序号,j为标签序号,为第i个短视频样本第v模态的原始特征向量,为第j个标签的标签词向量,和为可学习参数,为第i个短视频样本第v模态在与第j个标签语义分解后未归一化的特征向量,R为实数集,Dv为第v模态的原始特征维数,Dw为词向量维数,D为语义分解后特征向量的维数,V为模态总数,N为短视频样本个数,C为标签总数,⊙为向量点积符号;同时需要归一化语义分解后的特征向量:
其中,max为取最大值符号,为第i个短视频样本第v模态在与第j个标签语义分解后的特征向量,由此构成语义分解项。
2.根据权利要求1所述的一种基于语义分解的短视频事件检测方法,其特征在于,
所述将语义分解后的多模态特征向量按模态输入到不同的自动编码器中,并将自动编码器的中间层作为输出,最小化不同自动编码器输出的差距具体为:
s.t.i=1,2,...,N,j=1,2,...,C,v=1,2,...V
其中,
其中,AE为自动编码器,L为自动编码器的总层数,l为自动编码器层数序号,k和q为模态序号,为短视频第i个样本的第v模态在与第j个标签语义分解后输入到自动编码器l层的特征表示,dl,v为第v模态在自动编码器第l层的节点数,
和分别为自动编码器l层的权重和偏置,∑为求和符号,为F范数,λ为调节参数;由此构成模态融合项。
3.根据权利要求1所述的一种基于语义分解的短视频事件检测方法,其特征在于,所述将多模态融合后的特征向量作为节点初值输入到图神经网络中进行迭代更新,得到节点隐藏信息具体为:
其中,Ψ={ψ1,ψ2,...,ψC}表示图结构的节点,E={e11,e12,...,e1C,...,eCC}表示图结构的边,ψc为图结构的第c个节点,ecc’为连接图结构第c个节点与第c'个节点的边,代表了第c个标签出现时,第c'个标签同时出现的概率,利用标签相关性信息更新迭代图结构中每个节点的隐藏状态,图结构的初始化与消息传递公式为:
其中,t为图神经网络更新次数,为第i个短视频样本第j个节点的初始隐藏状态,为第t次更新时第i个短视频样本第j个节点的消息传递,为第i个短视频第j个节点t-1次更新的隐藏状态,j为第j个节点的所有邻接节点,ejj为连接图结构第j个节点与第j个节点的边,代表了第j个标签出现时,第j个标签同时出现的概率,ejj为连接图结构第j个节点与第j个节点的边,代表了第j个标签出现时,第j个标签同时出现的概率;
由此得到第t次更新节点隐藏状态的表达式:
其中,Ws,Wr,W,Us,Ur,U为门控循环单元参数,为中间变量,为第i个短视频第j个节点第t次更新的节点隐藏状态,σ为sigmoid函数,tanh为双曲正切函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010383987.5/1.html,转载请声明来源钻瓜专利网。