[发明专利]一种基于注意力机制的深度特征融合视频拷贝检测方法有效
申请号: | 202010016290.4 | 申请日: | 2020-01-08 |
公开(公告)号: | CN111241338B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 贾宇;沈宜;董文杰;张家亮;曹亮 | 申请(专利权)人: | 深圳市网联安瑞网络科技有限公司 |
主分类号: | G06F16/732 | 分类号: | G06F16/732;G06V10/80;G06V10/82;G06N3/0464;G06N3/08;G06V10/42;G06V10/44 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 钱成岑 |
地址: | 518000 广东省深圳市福田区华富街道新田社区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 深度 特征 融合 视频 拷贝 检测 方法 | ||
本发明公开了一种基于注意力机制的深度特征融合视频拷贝检测方法,包括:(1)对于视频数据抽取帧图像,然后利用不同的尺度构造图像金字塔;(2)以深度卷积神经网络模型为基础网络,并在该深度卷积神经网络模型的中间卷积层中加入注意力机制;(3)将帧图像和图像金字塔输入加入注意力机制的深度卷积神经网络模型,并通过拼接融合得到融合特征;(4)利用度量学习的方式训练深度卷积神经网络模型;(5)利用训练好的深度卷积神经网络模型,并通过相似度计算得到源视频数据。本发明利用注意力机制,以及全局特征和局部特征的融合,不仅可以解决传统图像处理方法效率低、精度低的问题,而且也能解决全局特征不能适应各种复杂变换的问题。
技术领域
本发明涉及多媒体信息处理技术领域,尤其是一种基于注意力机制的深度特征融合视频拷贝检测方法。
背景技术
在如今的移动互联网时代,由于多媒体视频数据的复杂性、各种视频编辑软件的出现、来源广泛等特点加大了阻止篡改视频数据肆意传播的难度。相关网络监管部门想有效的对网上多媒体视频数据进行监管,不能仅仅依靠人为监督和用户举报。
当前的解决方式是通过传统的图像处理或者全局特征提取的方法,传统算法处理效率低,而且准确度不高,而全局特征提取的方法对一般的编辑视频处理效果好,但是对于各种复杂变换的编辑视频处理效果难以达到预期。无论是传统的图像处理还是全局特征提取的方法都对于目前互联网上多媒体视频存在一定的缺陷。
发明内容
本发明所要解决的技术问题是:针对上述存在的问题,提供一种基于注意力机制的深度特征融合视频拷贝检测方法。
本发明采用的技术方案如下:
一种基于注意力机制的深度特征融合视频拷贝检测方法,包括如下步骤:
(1)数据输入:对于视频数据抽取帧图像,然后利用不同的尺度构造图像金字塔;
(2)模型构造:以深度卷积神经网络模型为基础网络,并在该深度卷积神经网络模型的中间卷积层中加入注意力机制;
(3)特征融合:将帧图像和图像金字塔输入加入注意力机制的深度卷积神经网络模型,并通过拼接融合得到融合特征;
(4)模型训练:利用度量学习的方式训练深度卷积神经网络模型;
(5)图像检索:利用训练好的深度卷积神经网络模型,并通过相似度计算得到源视频数据;
进一步,步骤(3)的方法为:
(3.1)图像金字塔通过加入注意力机制的深度卷积神经网络模型后得到深度的局部特征;
(3.2)帧图像通过加入注意力机制的深度卷积神经网络模型,抽取出中间卷积层的特征并利用池化层得到全局特征;
(3.3)将局部特征与全局特征进行拼接融合得到融合特征。
进一步,步骤(5)的方法为:
(5.1)库视频帧图像融合特征入库;
(5.2)对于需要检索的视频数据经步骤(1)处理后输入训练好的深度卷积神经网络模型,获得该需要检索的视频数据的帧图像融合特征;
(5.3)将该需要检索的视频数据的帧图像融合特征与库视频帧图像融合特征进行相似度计算;
(5.4)通过对相似度计算结果排序得到源视频数据。
进一步,所述相似度采用向量内积的方式计算。
进一步,所述帧图像为关键帧图像。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市网联安瑞网络科技有限公司,未经深圳市网联安瑞网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010016290.4/2.html,转载请声明来源钻瓜专利网。