[发明专利]一种基于高级语义信息特征编码的视频描述方法在审
申请号: | 202310159288.6 | 申请日: | 2023-02-24 |
公开(公告)号: | CN116091978A | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 任柯燕;张淳;黄靖懿;边青云 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/46;G06V10/80;G06V10/82;G06N3/0442;G06N3/0464;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 高级 语义 信息 特征 编码 视频 描述 方法 | ||
本发明提供一种基于高级语义信息特征编码的视频描述方法。该发明包括:通过人工智能网络预测输入视频序列中包含的多个独立事件,并输出各事件的起止时间以及相应文字描述;通过解耦地提取原生视频的空间与时序特征,摒弃传统骨干网络,保留更完整的语义信息;通过高级语义信息编码器以及特征融合模块提炼视频特征,对高级语义信息进行解码以获得视频描述特征,取得更好的描述效果;通过时间戳预测模块以及描述内容预测模块分别处理视频描述特征获得最终描述结果。本发明主要针对包含多个事件的视频,具有参数量低、精度高,方便对视频操作等特点;对于生成的描述信息,可根据应用场景实现分类、检索、辅助视听等任务。
技术领域
本发明涉及人工智能、计算机视觉、视频理解领域,尤其涉及一种高级语义信息提取和生成长视频描述方法。用于日常视频中的信息与事件检索及残障人士辅助视听。
背景技术
随着近些年来多媒体以及互联网技术的发展,视频数据规模爆炸式增长。面对视频数据量庞大、数据特征分布杂乱、视频冗长且内容复杂等局面,网络信息监管存在诸多困难。虽然人工智能可以处理多种人力难以解决的问题,但由于无法直接感知视频中的信息,网络对视频的操作收到了限制,大多数情况下视频信息的分类仍需要人为进行。同理,目前相关任务使用的数据也仍需手动添加标签。持续对长视频的日常管理和操作需要消耗极大的时间成本,也需要耗费极高的人工成本。
Vision Transformer网络模型(ViT)作为一种处理序列结构的神经网络,相较于时间卷积模型拥有更为灵活的感受野,同时其动态多头注意力机制使得网络对于特征的学习有着更高的泛化性,这极大地提升了模型的预测精度。ViT模型将图像分块,以便在网络训练中通过子注意力机制学习块与块之间的关系矩阵,最终获取整体图像的语义信息。但是,由于多头注意力包含对于每个像素的计算,模型的参数会随着输入图像的增大成指数级增长。目前有很多模型在学习视频表征时将ViT架构应用于每一帧之上,使得网络需要处理的参数量上升到(视频帧数×图像块宽度2×图像块数2)2。
除此之外,目前研究所使用的视频描述网络依然使用传统方法中的时序卷积作为骨干网络。由于无法完全摒弃卷积以及光流提取的视频特征,经骨干预处理后的视频描述网络模型虽然提升了预测效果,却依然无法在训练过程中更加深层地理解视频。相较于传统视频特征,语义信息可以更为精炼地描述场景,将其引入视频描述可以加深网络对视频的理解。语义信息的概念源自于自然语言处理,通过向量代表每个单词的意义,以此来表示单词之间的关系。若将视频输入的像素特征提升为高级语义信息,将其与描述事件的句子建立联系,可以使视频描述过程更加直接,提升描述效果。而目前高级语义信息还没有被应用于视频相关领域,使得视频描述的研究没有得到本质提升。本发明将像素特征提取改为高级语义信息提取,获得视频的高级语义信息,从而在降低网络整体参数量的同时学习到视频中更好的表征,在视频描述任务中达到更好的结果。
发明内容
本发明提出的一种基于高级语义信息特征编码的视频描述方法,此方法对应视频中的事件生成文字描述,同时也可以得到视频中各事件对应起止事件。输出结果为处理视频的后续操作提供了便利。本发明的成果可以应用于辅助残障人士了解视频内容、信息检索等场景。
本发明针对现有问题,设计出一种基于高级语义信息特征编码的视频描述方法。其采用编码器解码器结构,融合解耦的空间和时序编码器对长视频进行表征学习。首先通过发明中提出的高级语义信息编码器获取视频序列特征,然后使解码器对表征进行解码,最后链接多层感知机网络进行时间戳预测并结合传统LSTM网络实现视频描述生成。不同于传统方法使用卷积神经网络作为骨干网络及编码器,本发明通过多头自注意力机制将高级语义信息引入编码器中进行视频表征学习,以此增强网络对于视频的理解以及去去除冗余像素信息。整体网络结构拟定如图1所示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310159288.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种雨水资源收集及高效利用综合系统
- 下一篇:快开式分层取水闸门系统
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置