[发明专利]一种基于多层级编码-解码器的视频描述方法及系统有效
申请号: | 202011581321.7 | 申请日: | 2020-12-28 |
公开(公告)号: | CN112738647B | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 郑慧诚;余明静;王腾;刘泽华 | 申请(专利权)人: | 中山大学 |
主分类号: | H04N21/84 | 分类号: | H04N21/84;H04N19/42;H04N21/44;H04N21/234;G06N3/04 |
代理公司: | 深圳市创富知识产权代理有限公司 44367 | 代理人: | 高冰 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多层 编码 解码器 视频 描述 方法 系统 | ||
本发明公开了一种基于多层级编码‑解码器的视频描述方法及系统,该方法包括:获取视频并基于多层级编码器进行编码处理,构建目标图和事件图;基于多层级解码器对目标图和事件图进行解码,得到句子序列和单词序列,基于多任务学习完成文本描述任务和句子标签预测任务。该系统包括:编码模块和解码模块。本发明基于多层级编码器和多层级解码器,能够挖掘语句中细粒度的关系并提升描述性能。本发明作为一种基于多层级编码‑解码器的视频描述方法及系统,可广泛应用于视频处理领域。
技术领域
本发明属于视频处理领域,尤其涉及一种基于多层级编码-解码器的视频描述方法及系统。
背景技术
密集视频描述任务的目标是对未修剪视频中的多个事件进行时间位置检测与自然语言描述,该任务近年来吸引了越来越多研究者的关注。密集视频描述包括两个子任务,时序事件提名任务和事件描述任务。前者的目的是检测事件的时间范围,后者是对该事件生成一句自然语言描述。事件描述网络需要以准确、强大的事件特征作为输入,而事件的精准时间边框是特征构建的基础,因此绝大多数现有模型分两步完成密集描述:先实现精准的事件提名预测,再进一步进行事件描述。现有方法中,大多数模型忽略了多粒度的层次结构及语义元素间的关系建模,这往往使得描述语句中对细粒度元素的刻画不精确,对目标间、事件间相互关系的阐述不清晰。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于多层级编码-解码器的视频描述方法及系统,能够挖掘语句中细粒度的关系并提升描述性能。
本发明所采用的第一技术方案是一种基于多层级编码-解码器的视频描述方法,包括以下步骤:
S1、获取视频并基于多层级编码器进行编码处理,构建目标图和事件图;
S2、基于多层级解码器对目标图和事件图进行解码,得到句子序列和单词序列,完成文本描述任务和句子标签预测任务。
进一步,还包括:
构建多任务损失函数并基于损失函数更新多层级编码器和多层级解码器。
进一步,所述多层级编码器包括事件层级图卷积层、图池化层和目标层级图卷积层,所述多层级解码器包括句子记忆器和描述生成器,所述损失函数包括句子级别损失和单词级别损失。
进一步,所述获取视频并基于多层级编码器进行编码处理,构建目标图和事件图这一步骤,其具体包括:
获取视频并对视频进行处理,得到视频帧图像并基于深度神经网络提取视频帧卷积特征;
基于目标层级图卷积层对视频帧卷积特征进行处理,提取目标信息并根据目标的时间关系和空间关系构建目标图;
基于图池化层将目标图层级图卷积层信息聚合并传递给事件层级图卷积层;
基于事件层级图卷积层对目标图进行处理,提取事件信息并根据事件之间的时间关系构建事件图。
进一步,所述根据目标的时间关系和空间关系构建目标图,具体规则为:
判断到时间关系Sim(oi,oj)>0.3且空间关系IOU(oi,oj)>0.5,建立两个目标对象oi,oj之间的边,所述Sim(·)表示外观相似度度量,所述IOU(·)表示计算空间交互比。
进一步,所述根据事件之间的时间关系构建事件图,具体规则为:
判断到两个事件之间存在共现关系建立事件之间的边;
判断到两个事件之间存在邻近关系建立事件之间的边;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011581321.7/2.html,转载请声明来源钻瓜专利网。