[发明专利]一种基于语义分解的短视频事件检测方法有效
申请号: | 202010383987.5 | 申请日: | 2020-05-08 |
公开(公告)号: | CN111723649B | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 吕卫;李德盛;井佩光;苏育挺 | 申请(专利权)人: | 天津大学 |
主分类号: | G06V10/80 | 分类号: | G06V10/80;G06V20/40;G06K9/62;G06N3/04 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李林娟 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 分解 视频 事件 检测 方法 | ||
本发明公开了一种基于语义分解的短视频事件检测方法,其特征在于,所述方法包括:将短视频多模态的原始特征向量与其对应的标签词向量相结合,得到语义分解后的多模态特征向量;将语义分解后的多模态特征向量按模态输入到不同的自动编码器中,并将自动编码器的中间层作为输出,最小化不同自动编码器输出的差距,得到多模态融合后的特征向量;将多模态融合后的特征向量作为节点初值输入到图神经网络中进行迭代更新,得到节点隐藏信息;将图神经网络迭代完成后的节点隐藏信息输出到分类器中,得到最终的事件检测结果。本发明能够找出不同标签之间的相关性,进而提高了短视频事件检测的准确率。
技术领域
本发明涉及短视频事件检测领域,尤其涉及一种基于语义分解的短视频事件检测方法。
背景技术
当前,随着手机网络用户的日益增长,人们越来越多地在网络上发布“自创作”内容,如绘画,唱歌,表演等等。而短视频作为这些“自创作”内容的载体广泛出现在各大网络社交平台,且成为新一代青年人群的社交潮流。
短视频的特点为持续时间短,一般不超过30秒,由此导致其天然具有语义集中的特性,即短视频中出现的相应事件往往更为明确。现如今,在大量数据源的背景下,如果想用传统的人工标注的方法判明短视频的具体事件则显得过于笨拙,使得整个工程更加复杂且成本会极大增加。
因此,提出一种有效的短视频事件检测方法是很有意义的。
发明内容
本发明提供了一种基于语义分解的短视频事件检测方法,本发明能够找出不同标签之间的相关性,进而提高了短视频事件检测的准确率,详见下文描述:
一种基于语义分解的短视频事件检测方法,所述方法包括:
将短视频多模态的原始特征向量与其对应的标签词向量相结合,得到语义分解后的多模态特征向量;
将语义分解后的多模态特征向量按模态输入到不同的自动编码器中,并将自动编码器的中间层作为输出,最小化不同自动编码器输出的差距,得到多模态融合后的特征向量;
将多模态融合后的特征向量作为节点初值输入到图神经网络中进行迭代更新,得到节点隐藏信息;
将图神经网络迭代完成后的节点隐藏信息输出到分类器中,得到最终的事件检测结果。
其中,所述将短视频多模态的原始特征向量与其对应的标签词向量相结合,得到语义分解后的多模态特征向量具体为:
s.t.v=1,2,...,V i=1,2,...,N,j=1,2,...,C
其中,v为模态序号,i为短视频样本序号,j为标签序号,为第i个短视频样本第v模态的原始特征向量,为第j个标签的标签词向量,和为可学习参数,为第i个短视频样本第v模态在与第j个标签语义分解后未归一化的特征向量,R为实数集,Dv为第v模态的原始特征维数,Dw为词向量维数,D为语义分解后特征向量的维数,V为模态总数,N为短视频样本个数,C为标签总数,⊙为向量点积符号;同时需要归一化语义分解后的特征向量:
其中,max(·)为取最大值符号,为第i个短视频样本第v模态在与第j个标签语义分解后的特征向量,由此构成语义分解项。
进一步地,所述将语义分解后的多模态特征向量按模态输入到不同的自动编码器中,并将自动编码器的中间层作为输出,最小化不同自动编码器输出的差距具体为:
s.t.i=1,2,...,N,j=1,2,...,C,v=1,2,...V
其中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010383987.5/2.html,转载请声明来源钻瓜专利网。