[发明专利]一种基于联合注意力ResNeSt的复杂场景下网络直播视频特征提取方法有效
申请号: | 202011509545.7 | 申请日: | 2020-12-18 |
公开(公告)号: | CN112653899B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 张菁;康俊鹏;张广朋;卓力 | 申请(专利权)人: | 北京工业大学 |
主分类号: | H04N21/2187 | 分类号: | H04N21/2187;H04N21/234;H04N21/44 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 联合 注意力 resnest 复杂 场景 网络 直播 视频 特征 提取 方法 | ||
本发明涉及一种基于联合注意力ResNeSt的复杂场景下网络直播视频特征提取方法。首先对网络直播视频进行关键帧提取,得到视频的关键帧数据。为了利用视频帧的多尺度特征,按照特征金字塔网络的多尺度结构,设计了一个并行通路。该并行通路是自下而上构建的,与原有主干通路之间利用横向连接和斜向连接进行信息交换,其中横向连接和斜向连接均为卷积运算。考虑到网络直播的画面表现形式多以人为主体,同时夹杂大量冗余信息,因此引入空间——通道联合注意力,便于聚焦画面主体特征。最后,将融合了联合注意力的并行特征金字塔结合卷积层和池化层,构造ResNeSt特征提取模块,通过多层模块叠加,实现复杂场景下网络直播视频的特征提取。
技术领域
本发明以复杂场景下的网络直播视频为研究对象,通过联合注意力和ResNeSt网络进行直播视频特征提取,从而形成对直播视频的高效特征表达。首先利用并行特征金字塔,对视频关键帧进行特征卷积;在特征金字塔的卷积过程中,通过引入联合注意力机制获得视频的低层视觉信息和高层语义信息;最后结合拆分注意力残差网络(ResidualNetworks with Split-Attention,ResNeSt),形成对网络直播视频的高效特征表达。
背景技术
随着网络自媒体时代的到来,越来越多的人们开始以直播视频的形式在网络上分享自己的生活,网络直播视频也以几何级的数量不断增长。网络直播具有强大的吸粉能力和用户黏性,它给人们带来获取信息诸多便利的同时,也给运营商带来了丰厚的经济效益。然而,海量的网络直播视频也对网络信息安全和监管造成了严峻的挑战。网络直播从业门槛低、从业者多元复杂,拍摄的直播场景种类繁多,往往背景复杂,包含大量的人、物和标识。因此,如何快速高效地对复杂场景下的网络直播视频进行特征提取和表达,则是网络直播视频归类和监管的根本前提。
一般来说,视频特征提取方法主要分为两类:一是直接利用视频关键帧的低层视觉特征,包括颜色特征、纹理特征、形状特征等静态特征以及镜头移动、物体运动等动态特征。由于视频内容的多样性,简单的低层视觉特征难以适用于描述所有视频,形成更具鲁棒性的视觉特征表达;另一种是通过深度学习等手段从低层特征逐层提炼和挖掘出视频的高层语义特征,即通过卷积运算等把视频的原始数据空间维度缩小,选取适合的语义表达特征。已有研究成果表明,深度学习技术在视频特征表达方面取得了卓越的性能,远超过传统方法,这是因为深度学习方法提取的特征语义性和抽象性更高,尤其适用于视频场景中的非线性因素的学习。
近年来,涌现了不少深度学习网络,其中卷积神经网络(CNN)是最主流的方法,以CNN为网络结构的模型有GoogLeNet,VGG-19和Incepetion等。CNN史上的一个里程碑事件是ResNet模型的出现,ResNet可以训练出更深的CNN模型,从而实现更高的准确度。大量研究表明,利用ResNet提取视频的更深层次特征,可以取得远超过传统方法的性能。以ResNet为基础,有研究者将ResNet和Inception的网络组件相结合,提出了深层转化残差网络(Residual Transformations for Deep Neural Networks,ResNeXt),通过增加网络分支,来提取表达能力更强的视频特征。然而,在视频场景较为单一、人物数量较少、物体边缘轮廓清晰的情况下,采用现有的深度学习网络可以获得较好的性能,但是在场景种类较多、人员数目不定、采光条件等受限条件下的复杂直播视频场景中,直接应用上述深度网络,不易有效学习到时空上下文信息,从而影响了准确率的提升。最近,一种新型的拆分注意力残差网络(Residual Networks with Split-Attention,ResNeSt)被提出,这种深度网络结合了可在多支路多尺度中加强卷积特征的拆分注意力机制(split Attention),使得其性能超越了前作ResNet和ResNeXt,该网络在保留ResNeXt分支结构的基础上,通过引入拆分注意力监督机制,可以提取出有效的视频特征信息,为后续视频内容的分析及理解提供了技术前提。补充为何要引入联合注意力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011509545.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:扩散电阻的建模方法
- 下一篇:一种具有驱虫功能的LED草坪灯