[发明专利]基于深度学习的端到端的视频拷贝检测方法及装置有效
申请号: | 201810367098.2 | 申请日: | 2018-04-23 |
公开(公告)号: | CN108664902B | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 李兵;胡卫明;张靖;王博 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04 |
代理公司: | 北京市恒有知识产权代理事务所(普通合伙) 11576 | 代理人: | 郭文浩 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 端到端 视频 拷贝 检测 方法 装置 | ||
1.一种基于深度学习的端到端的视频拷贝检测方法,其特征在于,所述方法包括:
对用于进行视频拷贝检测的两段待检测视频进行镜头分割以选取各所述待检测视频的关键帧;
利用预先构建的拷贝关系识别模型对所选取出的多个关键帧进行识别,确定各关键帧之间的拷贝关系;所述拷贝关系识别模型基于卷积神经网络构建,其输入为待识别拷贝关系的两帧图片,输出为所输入的两帧图片的拷贝关系;
根据得到的各关键帧之间的拷贝关系,构建两段所述待检测视频全部关键帧的拷贝关系矩阵;
将所述拷贝关系矩阵作为输入,利用预先构建的定位识别模型,定位两段所述待检测视频中含有拷贝关系的片段;所述定位识别模型基于卷积神经网络构建,其输入为拷贝关系矩阵,输出定位两段视频中有拷贝关系的片段;
其中,所述定位识别模型,其训练方法:
根据预设的训练用样本数据,通过如下约束函数对基于卷积神经网络的拷贝关系识别模型进行训练,以得到优化的拷贝关系识别模型:
其中,L1为损失函数,N为第一段待检测视频中关键帧的数目,M为第二段待检测视频中关键帧的数目;zmn为第一段待检测视频中第n帧与第二端待测视频中第m帧存在拷贝关系的概率,如果存在拷贝关系,则为1,如果不存在拷贝关系,则为0。
2.根据权利要求1所述的基于深度学习的端到端的视频拷贝检测方法,其特征在于,“对用于进行视频拷贝检测的两段待检测视频进行镜头分割以选取各所述待检测视频的关键帧”,包括:
提取各所述待检测视频的每帧视频帧的直方图,对相邻视频帧的直方图进行差异比较,以确定各所述待检测视频的镜头边界;
根据所确定的镜头边界,选取各所述待检测视频各镜头的起始帧、中间帧、结束帧作为关键帧。
3.根据权利要求1所述的基于深度学习的端到端的视频拷贝检测方法,其特征在于,“根据得到的各关键帧之间的拷贝关系,构建两段所述待检测视频全部关键帧的拷贝关系矩阵”,包括:
由两段所述待检测视频中的第一段待检测视频的第一数目个关键帧,构建所述第一段待检测视频的关键帧向量,作为第一关键帧向量;
由两段所述待检测视频中的第二段待检测视频的第二数目个关键帧,构建所述第二段待检测视频的关键帧向量,作为第二关键帧向量;
根据所述待检测视频拷贝关系的识别结果,利用所述第一关键帧向量和所述第二关键帧向量之间的拷贝关系,构建两段所述待检测视频的拷贝关系矩阵。
4.根据权利要求1所述的基于深度学习的端到端的视频拷贝检测方法,其特征在于,所述定位识别模型,其训练方法:
从预设的多对训练用样本视频中,获取每对所述样本视频对应的拷贝片段的位置信息;
根据多对训练用样本视频,通过如下约束函数对基于卷积神经网络的初始定位识别模型进行训练,得到优化后的定位识别模型:
其中,L2为损失函数,pj为建议框预测为存在拷贝关系区域的概率,如果存在,则为1,否则为0;tj为建议框的四个参数化坐标,为真实框的四个参数化坐标;为位置回归损失函数;Nreg为每个拷贝关系矩阵会预测出建议框的个数;λ为两个加和项的权衡参数;
其中,所述建议框为所述定位识别模型针对拷贝关系矩阵,预测的两段待检测视频存在拷贝关系的片段对应的位置;
所述真实框为两段待检测视频存在拷贝关系的片段对应在所述拷贝关系矩阵中的位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810367098.2/1.html,转载请声明来源钻瓜专利网。