[发明专利]一种基于时空注意力模型的视频摘要生成方法有效
申请号: | 202011238229.0 | 申请日: | 2020-11-09 |
公开(公告)号: | CN112418012B | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 胡瑞敏;胡敏;王晓晨 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06V10/46 | 分类号: | G06V10/46;G06V10/774;G06V20/40;G06K9/62;G06N3/04;G06F16/74 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 王琪 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时空 注意力 模型 视频 摘要 生成 方法 | ||
1.一种基于时空注意力模型的视频摘要生成方法,其特征在于:首先给出如下定义,
①视频摘要:在给定的一段长视频序列中,提取出重要的视频帧序列组成一段短视频,其中w,h,c是视频帧的长,宽,通道数,t为视频帧序号,T为视频帧的总数,yt∈[0,1]表示tth帧是否被选为关键帧,“1”表示为真“0”为假,生成的摘要表示为Xsub={xt|t∈E},E={t∈[1,T]|yt=1};
②视频帧描述信息:由视觉显著特征zt、语义特征vt两种信息进行描述;
具体实现包括如下步骤;
步骤1,获取给定视频帧图像的视觉显著特征和语义特征表达分别为
步骤2,构建空间注意力模型:如果图像的显著域大小大于预设的阈值则该图像的显著域为有效显著域,能够吸引观众的注意力,则该图像的空间注意力分数记作bins(·)表示显著域直方图中的离散函数,bins(·)计算概率,当时该视频帧中含有效显著域,并且有效显著域面积越大,当前帧的空间重要程度越高;
步骤3,构建时间注意力模型:基于经典的注意力模型,当前视频帧与其前后向视频帧的语义关联使用条件概率计算,其时间注意力分数描述为mt=p(pt|p1,p2,...,pt-1,V)=G(pt-1,st,ct),其中,时间注意力分数mt计算可看作记作条件概率事件p(pt|p1,p2,...,pt-1,V),即已知t时刻前每帧的时间重要性值p1,...,pt-1和语义向量集合V,求当前t时刻的时间注意力概率pt,表示视频帧语义特征的集合,G(·)表示经典的注意模型解码器的计算,st是解码器隐含层向量,ct为注意模型的编码器的输出向量;
步骤4,构建联合概率模型:联合概率模型为βt=P(lt,mt)=Wl·lt+Wm·mt,其中,βt为空间注意力分数lt和时间注意力分数mt的联合概率值,P(lt,mt)为联合概率函数;
步骤5,通过联合概率模型确定时空均重要的关键帧。
2.如权利要求1所述的一种基于时空注意力模型的视频摘要生成方法,其特征在于:步骤5中关键帧的选择服从伯努力分布Bernounil(·),即通过yt~Bernounil(βt)确定关键帧,输出0或1,其中0表示非关键帧,1表示关键帧。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011238229.0/1.html,转载请声明来源钻瓜专利网。