[发明专利]一种基于双向时序图的视频描述生成方法和装置在审
申请号: | 201910439203.3 | 申请日: | 2019-05-24 |
公开(公告)号: | CN110210358A | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 彭宇新;张俊超 | 申请(专利权)人: | 北京大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 邱晓锋 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 时序 局部特征 视频描述 视频帧 构建 方法和装置 视频对象 建模 聚合 自然语言描述 对视频对象 注意力机制 对视频帧 对象检测 对象提取 解码模型 聚合模型 聚合特征 时序变化 视频时空 视频特征 视频提取 有效表达 层次化 能力强 细粒度 自适应 准确率 正向 检测 | ||
本发明涉及一种基于双向时序图的视频描述生成方法和装置。该方法包括以下步骤:对视频提取视频帧并进行对象检测,每个视频帧检测得到若干个对象;对视频对象构建双向时序图,包含正向图和反向图,计算得到对象的双向时序轨迹;对视频帧和对象提取局部特征,构建特征聚合模型,通过对局部特征进行聚合得到表达能力强的聚合特征;构建解码模型生成自然语言描述,并在生成过程中利用层次化注意力机制自适应区分不同视频帧和不同对象实例的作用。本发明能够通过双向时序图建模视频对象的时序轨迹,能够有效表达视频对象的时序变化信息,并且利用局部特征聚合提高视频特征的表达能力,建模细粒度的视频时空信息,从而提高了视频描述生成的准确率。
技术领域
本发明涉及视频描述生成技术领域,具体涉及一种基于双向时序图的视频描述生成方法和装置。
背景技术
随着互联网和多媒体技术的迅速发展,互联网上的视频数量急剧增长。统计数据表明,YouTube视频分享网站上用户每天观看的视频时长超过10亿小时,用户每分钟上传的视频时长超过400个小时。根据美国CISCO公司预测,到2022年,全球视频流量将占据IP流量的82%。面对海量规模且快速增长的互联网视频数据,如何对其内容进行有效的分析和理解,对满足用户的信息获取需求具有重要的意义。
视频描述生成是指计算机自动生成描述视频内容的自然语言语句,是计算机视觉和自然语言处理两个领域的交叉研究方向,可应用于视频管理、视频检索等方面,具有重要的研究和应用价值。早期研究者们采用基于语言模板的方法进行视频描述生成,首先从视频中检测对象、动作、事件等视觉内容,用单词进行表示,然后使用预定义的语言模板将上述单词连接成语句。代表方法是Thomason等人2014年发表在COLING会议的文献“Integrating Language and Vision to Generate Natural Language Descriptions ofVideos in the Wild”中提出的因素图模型(Factor Graph Model),该模型利用文本语料库将检测到的单词适配到SVOP(Subject-Verb-Object-Place)元组中,即学习可能的主语、谓语、宾语和地点,然后根据语言模板生成连贯的自然语言描述。然而,基于语言模板的方法依赖人工定义的语言模板,限制了语句的多样性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910439203.3/2.html,转载请声明来源钻瓜专利网。