[发明专利]一种数据不平衡下的高效行为识别方法有效
申请号: | 202010500433.9 | 申请日: | 2020-06-04 |
公开(公告)号: | CN111666872B | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 谭浩;王昱;刘启和;周世杰;程红蓉 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/774;G06V10/764;G06V10/82;G06K9/62;G06N3/04 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 钱成岑 |
地址: | 611731 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 不平衡 高效 行为 识别 方法 | ||
1.一种数据不平衡下的高效行为识别方法,其特征在于,所述行为识别方法用于行为检测,包括如下步骤:
步骤1,首先标记所有样本图片,根据样本数据量将样本划分为两个类别,然后采用随机均分算法重新构建样本集,得到数据量平衡的样本集D1和D2;
步骤2,将样本集D1和D2分别划分训练集和测试集;
步骤3,构建两个基础网络模型;
步骤4,利用样本集D1和D2的训练集训练两个基础网络模型;
步骤5,利用训练好的两个基础网络模型对样本集D1和D2的测试集进行预测;
步骤1包括如下子步骤:
步骤1.1,将原始数据集划分为n个普通类别和m个小类别:将n个普通类别记为S1,S2,...,Sn,m个小样本类别记为L1,L2,...,Lm;
步骤1.2,将n个普通类别随机均匀分为两份D'1和D'2;
步骤1.3,将小类别的所有类别数据L1,L2,...,Lm分别加入D'1和D'2,形成两个样本集:{L1,L2,...,Lm,D'1}和{L1,L2,...,Lm,D'2},记为D1和D2;
步骤1.2包括如下子步骤:
步骤1.2.1,将第i个普通类别的所有样本从1开始编号至Si,0<i≤n,i为正整数,初始值为1;令k=1;
步骤1.2.2,计算第k个随机数xk=(axk-1+b)mod(m);其中乘数a须满足a=4p+1,增量b须满足b=2q+1,p,q为正整数;
步骤1.2.3,计算ξk=xk/m×Si,并将编号为ξk的样本放入数据集D'1中;
步骤1.2.4,若则进入步骤1.2.5;否则,令k=k+1,进入步骤1.2.2;
步骤1.2.5,将第i个普通类别中剩余的样本放入数据集D'2中,i=i+1;
步骤1.2.6,若i>n,则结束;否则进入步骤1.2.1;
每个所述基础网络模型包括:
基础网络,用于提取样本集中低尺度的特征映射图;
辅助卷积层,用于提取样本集中高尺度的特征映射图;
预测卷积层,用于输出特征映射图的位置信息和分类信息;
所述预测卷积层为特征映射图中每个单元生成先验框,然后基于先验框对特征映射图进行以下两部分的检测:
a、对特征映射图进行softmax分类,经过一次批标准化和一次卷积后,得到每个先验框对应每个类别的概率,即特征映射图的分类信息;
b、对特征映射图进行边框回归,经过一次批标准化和一次卷积后,得到每个先验框的左上角和左下角对应坐标,即特征映射图经过先验框调整后的位置信息;
其中,所述先验框是指预测卷积层在特征映射图的每个单元预先定义的不同大小的矩形框,这些矩形框具有不同的宽高比,用于匹配特征映射图中的真实物体;
步骤4包括如下子步骤:
步骤4.1,确定训练基础网络模型的正样本和负样本;
步骤4.2,所述基础网络模型过对损失函数回归优化模型参数;
步骤4.3,使用步骤2得到的样本集D1和D2的训练集,将两个基础网络模型M1、M2分别进行训练;
步骤4.1,包括如下子步骤:
步骤4.1.1,计算所有先验框和训练集中所有真实目标的jaccard重叠系数;
步骤4.1.2,将每个先验框和与其对应的jaccard重叠系数最高的真实目标进行匹配,匹配失败的是负样本,匹配成功的是正样本;
步骤4.1.3,采用hard negative mining对负样本进行抽样,使正样本和负样本的数据量尽量平衡;
步骤4.2中,所述损失函数定义为位置损失与置信度损失的加权和,采用如下公式表示:
L=Lconf+α·Lloc
所述位置损失是偏离位置与真实目标位置的平均smooth L1损失,采用如下公式表示:
其中,N为匹配到真实目标的先验框的数量,表示第i个先验框匹配到第j个类别为k的真实目标;
所述置信度损失是正负匹配之间的交叉熵损失之和,采用如下公式表示:
其中,N和的含义与在位置损失中的含义相同,c为类别置信度预测值;
步骤5包括如下子步骤:
步骤5.1,获取基础模型预测结果:
步骤5.1.1,将测试集分别输入由步骤4得到的两个训练好的基础网络模型M1、M2中,分别获得两个基础网络模型M1和M2对该测试集的预测框;
步骤5.1.2,对于步骤5.1.1获得的每个预测框:
(1)根据类别置信度确定其类别与置信度值,并过滤掉属于背景这一类别的预测框;
(2)根据置信度阈值过滤掉置信度值低于置信度阈值的预测框;
步骤5.1.3,对步骤5.1.2留下的预测框进行解码,获得预测框的位置信息和类别信息;
步骤5.1.4,对步骤5.1.2留下的预测框根据置信度值进行降序排列,仅保留top_k个预测框;
步骤5.1.5,对步骤5.1.4留下的预测框进行非极大抑制算法,过滤掉重叠度超过预设值的预测框,剩余的预测框的位置信息和类别信息即为两个基础网络模型M1、M2的预测结果;
步骤5.2,对步骤5.1获得的两个基础网络模型M1、M2的预测结果进行整合:
步骤5.2.1,设两个基础网络模型M1、M2此时分别预测有m1和m2个预测框,则将分别从两个基础网络模型M1、M2中获取序列(m1,mbox_loc+n_classes)和(m2,mbox_loc+n_classes);结合预测模块首先将这两个序列进行拼接,可以得到(m1+m2,mbox_loc+n_classes)维度的输出;该(m1+m2,mbox_loc+n_classes)维度的输出为两个基础网络模型M1、M2得到的所有预测框的目标类别和分数;
步骤5.2.2,结合预测模块在预测框中先选出有类别最大分数的检测框,将选出的检测框排出预测框集合内,并使用该检测框检测其余所有预测框,若预测框与该检测框的重叠部分不小于重叠阈值Nt,则将其分数按照以下公式重新计算:
步骤5.2.3,完成上述步骤后递归计算直至预测框集合为零,并绘制最后预测结果。
2.根据权利要求1所述的数据不平衡下的高效行为识别方法,其特征在于,所述先验框的尺度相对于特征映射图的比例采用以下公式计算:
其中,m指特征映射图个数;Sk表示先验框的尺度相对于特征映射图的比例,而Smin和Smax表示比例的最小值与最大值;
所述先验框的长宽比ar,计算先验框的宽度和高度:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010500433.9/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置