[发明专利]一种基于双向时序图的视频描述生成方法和装置在审
申请号: | 201910439203.3 | 申请日: | 2019-05-24 |
公开(公告)号: | CN110210358A | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 彭宇新;张俊超 | 申请(专利权)人: | 北京大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 邱晓锋 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于双向时序图的视频描述生成方法和装置。该方法包括以下步骤:对视频提取视频帧并进行对象检测,每个视频帧检测得到若干个对象;对视频对象构建双向时序图,包含正向图和反向图,计算得到对象的双向时序轨迹;对视频帧和对象提取局部特征,构建特征聚合模型,通过对局部特征进行聚合得到表达能力强的聚合特征;构建解码模型生成自然语言描述,并在生成过程中利用层次化注意力机制自适应区分不同视频帧和不同对象实例的作用。本发明能够通过双向时序图建模视频对象的时序轨迹,能够有效表达视频对象的时序变化信息,并且利用局部特征聚合提高视频特征的表达能力,建模细粒度的视频时空信息,从而提高了视频描述生成的准确率。 | ||
搜索关键词: | 时序 局部特征 视频描述 视频帧 构建 方法和装置 视频对象 建模 聚合 自然语言描述 对视频对象 注意力机制 对视频帧 对象检测 对象提取 解码模型 聚合模型 聚合特征 时序变化 视频时空 视频特征 视频提取 有效表达 层次化 能力强 细粒度 自适应 准确率 正向 检测 | ||
【主权项】:
1.一种基于双向时序图的视频描述生成方法,包括以下步骤:(1)对视频提取视频帧并进行对象检测,每个视频帧检测得到若干个对象;(2)对检测得到的对象构建双向时序图,计算对象的时序轨迹;(3)对视频帧和对象区域提取局部特征,并构建特征聚合模型,利用局部特征和对象的时序轨迹学习聚合特征;(4)利用注意力机制分别对多个视频帧和多个对象的聚合特征进行融合,并构建解码模型生成自然语言描述。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910439203.3/,转载请声明来源钻瓜专利网。