[发明专利]监控场景下基于ResNet-50的行人属性识别方法在审
申请号: | 201910425208.0 | 申请日: | 2019-05-21 |
公开(公告)号: | CN110457984A | 公开(公告)日: | 2019-11-15 |
发明(设计)人: | 杨晓宇;殷光强;张裕星;向凯;殷雪朦 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 51244 成都其高专利代理事务所(特殊普通合伙) | 代理人: | 廖曾;贺立中<国际申请>=<国际公布>= |
地址: | 611731四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 属性识别 卷积神经网络 损失函数 监控场景 监控视频 实验模型 网络结构 行人数据 挖掘 测试集 数据集 训练集 预测 构建 改进 标签 评估 分析 联合 统一 学习 | ||
1.监控场景下基于ResNet-50的行人属性识别方法,其特征在于:包括以下步骤:
1)选用公开数据集和监控视频,将两者混合在一起构建行人数据集;
2)选用ResNet-50卷积神经网络模型作为实验模型;
3)对loss损失函数进行改进,并提出N+1类预测方法进行N/A标签的预测;
4)把训练集输入改进loss损失函数后的ResNet-50卷积神经网络,得出行人属性识别模型;
5)将测试集输入到行人属性识别模型中进行识别,对行人属性识别模型的实验结果进行评估。
2.根据权利要求1所述的监控场景下基于ResNet-50的行人属性识别方法,其特征在于:所述步骤1)包括以下具体步骤:
1.1)选用公开数据集,并将公开数据集的标签格式在原数据集的基础上增加一个N/A标签;
1.2)获取监控视频下的行人视频,将截取的视频帧按照规定的图片命名方式进行命名,并把全部的图片缩放到统一的大小,保存图片文件到指定的文件夹;
1.3)利用三个不同的标签值对所有的图片进行标注;
1.4)按照广泛采取的实验数据集划分原则,随机的把行人数据集的图片文件分为两部分:分别为训练集和验证集,且训练集和验证集的划分比例为8~9:2~1。
3.根据权利要求2所述的监控场景下基于ResNet-50的行人属性识别方法,其特征在于:所述步骤1.3)采用如下方式对所有的图片进行标注:
每一张图片上如果存在行人属性则标签值为1;
每一张图片上如果不存在行人属性则标签值为0;
每一张图片上如果不能确定是否含有行人属性则标签值为N/A。
4.根据权利要求1所述的监控场景下基于ResNet-50的行人属性识别方法,其特征在于:所述ResNet-50卷积神经网络模型包括1个卷积层、16个building block结构及1个全连接层;所述卷积层和building block结构用来自动提取行人属性特征;全连接层用于组合属性特征,并将输出值输入给softmax分类,且全连接层输出的节点数对应行人属性的类别。
5.根据权利要求1所述的监控场景下基于ResNet-50的行人属性识别方法,其特征在于:所述步骤3)中改进后的loss损失函数为其中N表示行人数据集中图片的数量,L为图片文件中的行人属性的数量,每张图片表示为xi,i∈[1,2,...N],xi对应的行人属性标签向量为yi,yi对应的属性值为yil,yil∈[0,1,N/A];pil1表示xi有第l个属性的概率,pil0表示xi没有第l个属性的概率;yil1是真实属性标签,表示行人样本xi有第l个属性;yil0是真实属性标签,表示行人样本xi没有第l个属性。
6.根据权利要求1所述的监控场景下基于ResNet-50的行人属性识别方法,其特征在于:所述N+1类预测方法采用下述任一种或多种:
(1)定义一个区域阈值δ,观察激活函数的输出范围[0,1],当预测为0.5-δ到0.1+δ,将该类归为N/A标签;
(2)使用一个标准的softmax损失函数进行训练,输出为N+1类;
(3)使用分层softmax的方法,设置两个随机变量A,B,并采用关节的因数分解为:P(A,B)=P(B|A)*P(A),其中,P(A)表示属性是否可决定,P(B)表示属性为真的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910425208.0/1.html,转载请声明来源钻瓜专利网。