[发明专利]基于视频的最优目标捕捉方法、装置及相关设备有效
申请号: | 202110517094.X | 申请日: | 2021-05-12 |
公开(公告)号: | CN112990156B | 公开(公告)日: | 2021-08-13 |
发明(设计)人: | 张松华;闫潇宁;郑双午 | 申请(专利权)人: | 深圳市安软科技股份有限公司;深圳市安软慧视科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 深圳君信诚知识产权代理事务所(普通合伙) 44636 | 代理人: | 刘伟 |
地址: | 518000 广东省深圳市龙华新区龙华*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 视频 最优 目标 捕捉 方法 装置 相关 设备 | ||
1.一种基于视频的最优目标捕捉方法,其特征在于,包括以下步骤:
从视频中获取一帧图像,所述图像包括至少一个待捕捉目标,所述待捕捉目标包括目标行人;
基于所述图像,通过第一模型对所述待捕捉目标进行基础特征提取,得到所述待捕捉目标的基础特征;
基于所述待捕捉目标的基础特征,通过第二模型提取所述待捕捉目标的多个属性特征,并通过第三模型对所述待捕捉目标的多个属性特征进行融合,得到属性融合特征;
基于所述多个属性特征和所述属性融合特征,通过预构建评分函数对所述图像中的待捕捉目标进行质量评分,得到所述图像的质量分数;
重复上述步骤,直到所述视频的最后一帧图像,得到对应多帧图像的多个质量分数,并从中选出质量分数最高的一帧图像作为所述视频的最优目标;
所述第三模型包括特征拼接层和特征融合层,所述通过第三模型对所述待捕捉目标的多个属性特征进行融合,得到属性融合特征的步骤,包括:
将所述目标行人的多个属性特征通过所述特征拼接层进行拼接,得到拼接特征;
将所述拼接特征通过所述特征融合层进行特征融合,得到属性融合特征;
所述评分函数的预构建包括以下步骤:
根据业务场景确定每个目标行人属性特征的位置;
确定每个目标行人属性特征的权重;
基于每个目标行人属性特征的位置和权重得到所述评分函数。
2.如权利要求1所述的基于视频的最优目标捕捉方法,其特征在于,所述待捕捉目标的多个属性特征包括所述目标行人的多个属性特征,所述多个属性特征包括:目标行人朝向、目标行人遮挡比率、目标行人脸部遮挡比率以及目标行人站立状态。
3.如权利要求1所述的基于视频的最优目标捕捉方法,其特征在于,所述第一模型包括标准卷积结构和特征降维结构,所述标准卷积结构包括二维卷积层、归一化层和激活层;所述特征降维结构包括分组卷积层、标准卷积层、平均池化层和二维卷积层。
4.如权利要求1所述的基于视频的最优目标捕捉方法,其特征在于,所述第二模型包括对应所述待捕捉目标的多个属性特征的多个属性特征提取模块,每个所述属性特征提取模块从所述目标行人的基础特征中提取出一个目标行人属性特征;每个所述属性特征提取模块包括一个标准卷积结构和两个特征降维结构。
5.如权利要求1所述的基于视频的最优目标捕捉方法,其特征在于,所述方法还包括步骤:
将所述第一模型、所述第二模型以及所述第三模型依次连接起来进行端到端的预训练,其中,所述预训练包括步骤:
获取预训练用的视频数据;
从所述预训练用的视频数据中抽取帧图像,从所述图像中检测出行人并进行标记,包括位置标记和属性标记,得到行人数据集;
将所述行人数据集划分为训练集、验证集和测试集;
分别构建所述第一模型、所述第二模型及所述第三模型,将三个模型连接成一个模型并通过所述行人数据集进行预训练、验证和测试,得到训练好的第一模型、第二模型及第三模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市安软科技股份有限公司;深圳市安软慧视科技有限公司,未经深圳市安软科技股份有限公司;深圳市安软慧视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110517094.X/1.html,转载请声明来源钻瓜专利网。