[发明专利]面向非平衡数据基于半监督分布式训练的任务识别方法在审
申请号: | 202111473280.4 | 申请日: | 2021-12-02 |
公开(公告)号: | CN114154578A | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 许志伟;董泽辉;刘利民;王永生 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 010080 内蒙古自治区呼*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 平衡 数据 基于 监督 分布式 训练 任务 识别 方法 | ||
1.一种面向非平衡数据基于半监督分布式训练的任务识别方法,其特征在于,包括:
步骤1,首先,针对待分类任务,利用边缘设备采集样本数据,将采集到的样本数据分为有标签集和无标签集;然后,边缘设备利用自身的预训练模型对采集到的样本数据进行处理,得出召回率和准确率,根据召回率和准确率得出待分类任务每个类别的数量,并根据每个类别的数量对各类别进行降序排序;最后,边缘设备获取到处理后的数据集,数据集中标签集和无标签集的边际类分布均是倾斜的;
步骤2,基于所述处理后的数据集,利用边缘设备、多层边缘节点和数据中心服务器组成的多层分布式训练结构,使用数据并行的分布式训练方法训练半监督学习模型,其中,边缘节点为训练节点时计算本地训练梯度,边缘节点为参数服务器时进行训练参数共享,一个参数服务器和多个边缘节点协同执行一个训练任务,数据中心服务器调度训练任务,每个训练任务经过分布式训练得到一个优化模型;
步骤3,利用训练得到的优化模型对标签集和无标签集实现类再平衡自训练,步骤如下:
步骤3.1,以训练得到的优化模型为教师模型,对无标签集进行预测,获得一个伪标签集;
步骤3.2,从标签集估计类分布,基于类再平衡规则,根据分布情况,从伪标签集中选取部分伪标签样本生成一个伪标签子集,利用伪标签子集扩展标签集,实现数据集的类分布平衡;
步骤3.3,基于步骤3.2所得类分布平衡的数据集,利用步骤2的方法训练一个新的模型,称为学生模型,并替代其相应的教师模型,通过设定一个阈值,到达该阈值后,结束自训练,得到识别任务模型;
步骤4,利用所述识别任务模型对新的待识别对象进行识别。
2.根据权利要求1所述基于半监督分布式训练的任务识别方法,其特征在于,所述步骤1中,待分类任务有L个类别,有标签集χ={(xn,yn)},无标签集u={um},其中xn表示第n个有标签样本,n∈(1,…,N),N为有标签样本的总数,Nl为有标签集χ中第l类有标签样本的数量,yn为xn对应的类标签,yn∈{1,…,L},um表示第m个无标签样本,m∈(1,…,M),M为无标签样本的总数,um∈Rd,xn∈Rd,Rd表示待分类任务中的所有样本的存储矩阵,R为实数域,d为维数,根据每个类别的数量对各类别进行降序排序,得NL>……>Nl>……>N1其中NL是有标签集χ中第L类有标签样本的数量,其中N1是有标签集χ中第1类有标签样本的数量,有标签集χ和无标签集u共享相同的边际类分布,不平衡率标签分数单个边缘节点所需训练数据量S=N+M。
3.根据权利要求1所述基于半监督分布式训练的任务识别方法,其特征在于,所述步骤2,边缘节点作为训练节点时,训练节点之间不会通信,采用一种强同步的通信模式,每一个训练节点在完成一次迭代后会被堵塞,直到参数服务器收到所有训练节点传送来的梯度并将最新的参数值传递给所有训练节点后才能执行下一轮迭代计算。
4.根据权利要求1所述基于半监督分布式训练的任务识别方法,其特征在于,所述步骤2包括:
步骤2.1,本地训练
边缘节点判断所述处理后的数据集是否达到本地训练所需数据量,数据量不足时将本地数据发送到下层边缘节点,直至满足本地训练所需数据量,相应的边缘节点为训练节点,训练节点利用标签集和无标签集进行半监督学习训练,然后将训练计算得到的梯度发送到下层边缘节点;
步骤2.2,参数聚合
当边缘节点进行聚合训练参数时,相应的边缘节点为参数服务器,参数服务器收集训练节点的训练参数,将参数进行聚合,聚合完成后发送回训练节点;
步骤2.3,任务调度
一个参数服务器和多个训练节点协同执行半监督学习的训练任务,多层分布式训练结构由多个训练任务组成,数据中心服务器同时处理多个训练任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111473280.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:角度可调节的显微镜支架
- 下一篇:埋点数据管理方法及相关设备
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置