[发明专利]一种基于联合注意力ResNeSt的复杂场景下网络直播视频特征提取方法有效

申请号：	202011509545.7	申请日：	2020-12-18
公开（公告）号：	CN112653899B	公开（公告）日：	2022-07-12
发明（设计）人：	张菁;康俊鹏;张广朋;卓力	申请（专利权）人：	北京工业大学
主分类号：	H04N21/2187	分类号：	H04N21/2187;H04N21/234;H04N21/44
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	刘萍
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于联合注意力 resnest 复杂场景网络直播视频特征提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于联合注意力ResNeSt的复杂场景下网络直播视频特征提取方法。首先对网络直播视频进行关键帧提取，得到视频的关键帧数据。为了利用视频帧的多尺度特征，按照特征金字塔网络的多尺度结构，设计了一个并行通路。该并行通路是自下而上构建的，与原有主干通路之间利用横向连接和斜向连接进行信息交换，其中横向连接和斜向连接均为卷积运算。考虑到网络直播的画面表现形式多以人为主体，同时夹杂大量冗余信息，因此引入空间——通道联合注意力，便于聚焦画面主体特征。最后，将融合了联合注意力的并行特征金字塔结合卷积层和池化层，构造ResNeSt特征提取模块，通过多层模块叠加，实现复杂场景下网络直播视频的特征提取。

技术领域

本发明以复杂场景下的网络直播视频为研究对象，通过联合注意力和ResNeSt网络进行直播视频特征提取，从而形成对直播视频的高效特征表达。首先利用并行特征金字塔，对视频关键帧进行特征卷积；在特征金字塔的卷积过程中，通过引入联合注意力机制获得视频的低层视觉信息和高层语义信息；最后结合拆分注意力残差网络(ResidualNetworks with Split-Attention,ResNeSt)，形成对网络直播视频的高效特征表达。

背景技术

随着网络自媒体时代的到来，越来越多的人们开始以直播视频的形式在网络上分享自己的生活，网络直播视频也以几何级的数量不断增长。网络直播具有强大的吸粉能力和用户黏性，它给人们带来获取信息诸多便利的同时，也给运营商带来了丰厚的经济效益。然而，海量的网络直播视频也对网络信息安全和监管造成了严峻的挑战。网络直播从业门槛低、从业者多元复杂，拍摄的直播场景种类繁多，往往背景复杂，包含大量的人、物和标识。因此，如何快速高效地对复杂场景下的网络直播视频进行特征提取和表达，则是网络直播视频归类和监管的根本前提。

一般来说，视频特征提取方法主要分为两类：一是直接利用视频关键帧的低层视觉特征，包括颜色特征、纹理特征、形状特征等静态特征以及镜头移动、物体运动等动态特征。由于视频内容的多样性，简单的低层视觉特征难以适用于描述所有视频，形成更具鲁棒性的视觉特征表达；另一种是通过深度学习等手段从低层特征逐层提炼和挖掘出视频的高层语义特征，即通过卷积运算等把视频的原始数据空间维度缩小，选取适合的语义表达特征。已有研究成果表明，深度学习技术在视频特征表达方面取得了卓越的性能，远超过传统方法，这是因为深度学习方法提取的特征语义性和抽象性更高，尤其适用于视频场景中的非线性因素的学习。

近年来，涌现了不少深度学习网络，其中卷积神经网络(CNN)是最主流的方法，以CNN为网络结构的模型有GoogLeNet，VGG-19和Incepetion等。CNN史上的一个里程碑事件是ResNet模型的出现，ResNet可以训练出更深的CNN模型，从而实现更高的准确度。大量研究表明，利用ResNet提取视频的更深层次特征，可以取得远超过传统方法的性能。以ResNet为基础，有研究者将ResNet和Inception的网络组件相结合，提出了深层转化残差网络(Residual Transformations for Deep Neural Networks，ResNeXt)，通过增加网络分支，来提取表达能力更强的视频特征。然而，在视频场景较为单一、人物数量较少、物体边缘轮廓清晰的情况下，采用现有的深度学习网络可以获得较好的性能，但是在场景种类较多、人员数目不定、采光条件等受限条件下的复杂直播视频场景中，直接应用上述深度网络，不易有效学习到时空上下文信息，从而影响了准确率的提升。最近，一种新型的拆分注意力残差网络(Residual Networks with Split-Attention,ResNeSt)被提出，这种深度网络结合了可在多支路多尺度中加强卷积特征的拆分注意力机制(split Attention)，使得其性能超越了前作ResNet和ResNeXt，该网络在保留ResNeXt分支结构的基础上，通过引入拆分注意力监督机制，可以提取出有效的视频特征信息，为后续视频内容的分析及理解提供了技术前提。补充为何要引入联合注意力。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011509545.7/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

H 电学

H04 电通信技术
H04N 图像通信，如电视
H04N21-00 可选的内容分发，例如交互式电视，VOD〔视频点播〕
H04N21-20 .专门适用于内容分发的专用服务器，例如：VOD服务器；其操作
H04N21-40 .专门适用于接收内容或者与内容交互的客户端设备，如STB[机顶盒]；相关操作
H04N21-60 .用于在服务器和客户端之间或者在远程客户端之间的视频分配的网络结构或者处理
H04N21-80 .通过内容产生器独立于分配过程实现的内容或附加数据的生成或处理；内容本身
H04N21-81 ..其单媒体部件

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于联合注意力ResNeSt的复杂场景下网络直播视频特征提取方法有效

专利文献下载