[发明专利]视频目标检测方法、系统、存储介质、计算机视觉终端有效
申请号: | 202110979769.2 | 申请日: | 2021-08-25 |
公开(公告)号: | CN113691818B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 曾辉;魏文应;张世雄;安欣赏;张伟民 | 申请(专利权)人: | 深圳龙岗智能视听研究院;广东博华超高清创新中心有限公司 |
主分类号: | H04N19/625 | 分类号: | H04N19/625;H04N19/61;H04N19/176;H04N19/593;G06V10/82;G06V10/774;G06V20/40;G06N3/0464;G06N3/08 |
代理公司: | 北京京万通知识产权代理有限公司 11440 | 代理人: | 万学堂 |
地址: | 518116 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 目标 检测 方法 系统 存储 介质 计算机 视觉 终端 | ||
1.一种视频目标检测方法,在AVS标准下的解码阶段的DCT变换解码前,对DCT码流数据利用相邻错位拼接法进行拼接,将拼接结果作为CNN模型的输入,消除CNN模型输入数据冗余,其特征在于,所述视频目标检测方法具体包括:
S101:从基于AVS标准进行编码的视频中,提取视频某一帧的DCT码流,具体包括
(1)将图像划分为多个区块,
(2)将区块使用DCT变换进行编码,
(3)对DCT码流进行量化和Zigzag编码,
(4)获得Zigzag编码的DCT码流,
(5)输出结果,作为CNN模型的输入数据,
(6)DCT逆变换,
(7)合并图像区块;
S102:将提取好的DCT码流,使用相邻错位拼接法进行拼接,拼接后的码流保留数据元信息的同时,生成符合CNN模型输入格式,具体为,
将提取到的DCT码流,进行相邻区域两两合并,得到新的码流数据,将新的码流数据直接作为CNN模型的输入数据,具体实现方法为:
基于卷积神经网络旋转不变性,对码流进行旋转拼接;对经过Zigzag编码的DCT码流,进行旋转,将相邻的区块两两拼接形成新的区块,最后将所有区块拼接,形成一个特征图,该特征图将作为输入数据,输入到CNN模型中,在该输入过程中,为了满足CNN模型输入为正方形的需求,则需要对特征图调整大小,使用常规通用的图像插值方法调整大小;
S103:将拼接好的DCT码流,作为CNN模型的输入,进行模型训练和模型推断,具体为,
选择具有目标检测功能的CNN模型,并使用海量合并后的DCT码流,对CNN模型进行训练,最终得到具备视频目标检测功能的CNN模型,
消除CNN模型输入数据冗余的方法包括,
选择一个通用的目标检测算法模型,
使用从海量视频中提取的DCT码流,并配合人工数据标注,作为神经网络训练使用的数据集,使用数据集进行模型训练,
消除CNN模型输入数据冗余。
2.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1所述的视频目标检测方法的步骤。
3.一种实施权利要求1所述视频目标检测方法的视频目标检测系统,其特征在于,所述视频目标检测系统包括:
DCT码流提取模块,用于从基于AVS标准进行编码的视频中,提取视频某一帧的DCT码流;
DCT码流拼接模块,用于将提取好的DCT码流,使用相邻错位拼接法进行拼接,拼接后的码流,保留数据元信息的同时,生成符合CNN模型输入格式;
CNN模型检测模块,用于将拼接好的DCT码流,作为CNN模型的输入,进行模型训练和模型推断。
4.一种计算机视觉终端,其特征在于,所述计算机视觉终端用于实现权利要求1所述的视频目标检测方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳龙岗智能视听研究院;广东博华超高清创新中心有限公司,未经深圳龙岗智能视听研究院;广东博华超高清创新中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110979769.2/1.html,转载请声明来源钻瓜专利网。