[发明专利]基于ADMM的不平衡大数据分布式分类方法在审

专利信息
申请号: 202110781204.3 申请日: 2021-07-10
公开(公告)号: CN113627485A 公开(公告)日: 2021-11-09
发明(设计)人: 王慧慧;吴昌胜;赵林;赵庆玲 申请(专利权)人: 南京理工大学
主分类号: G06K9/62 分类号: G06K9/62;G06F17/10
代理公司: 南京理工大学专利中心 32203 代理人: 陈鹏
地址: 210094 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 admm 不平衡 数据 分布式 分类 方法
【说明书】:

发明公开了一种基于ADMM的不平衡大数据分布式分类方法,提出基于ADMM的分布式框架,并将分布式分类问题划分为一些小问题,这些小问题可以通过分散资源并行解决;在分布式框架的基础上,采用加速策略,设计了更合适的非平衡数据分类模型,提高了时间效率。理论分析和实验结果表明,该方法比其他分布式ADMM方法收敛速度更快,并且节省了训练时间,提高了分布式分类在不平衡数据上的可扩展性。

技术领域

本发明涉及凸问题的优化方法,具体是一种基于ADMM的不平衡大数据分布式分类方法。

背景技术

分类问题是人类所面临的一个非常重要且具有普遍意义的问题。将事物正确的分类,有助于人们认识世界,使杂乱无章的现实世界变得有条理。例如自动文本分类就是对大量的自然语言文本按照一定的主题类别进行自动分类,它是自然语言处理的一个十分重要的问题;文本分类主要应用于信息检索,机器翻译,自动文摘,信息过滤,邮件分类等任务。此任务的目的是在不平衡的数据样本中精确分类。不平衡数据即数据集中一类样本的数量远远超过其他类,其中占大多数的样本被称为多数类,而数量很小一部分的称为少数类。在不平衡数据样本中正确识别少数类比正确识别多数类更加重要,为此我们考虑代价敏感学习,基于总体错分代价最小化来设计分类器,在一定程度上解决了上述问题。

近年来,在分布式集群中使用代价敏感学习来解决不平衡分类的尝试还很少。特别地,有人提出了一种并行随机森林算法来解决不平衡分类问题。该方法在随机森林中使用代价敏感学习来强调少数类,调整决策树结构。在基于模糊规则的分类系统中,惩罚因子采用了代价敏感学习。Mapreduce便采用了这种方法实现,不过训练时间较长。乘子交替方向法(ADMM)是一种应用广泛的优化算法,具有良好的收敛性。在ADMM中,原始问题与两个局部问题相互结合,然后交替优化它们的最小值。证明了当所有函数都是凸函数时ADMM具有线性收敛性。为了解决大数据分类问题,已经提出了许多基于分布式ADMM的算法。具体来说,支持向量机的子问题模型是由ADMM以完全分布的方式训练的。

在这些方法中,ADMM作为一种应用广泛的优化算法,由于其在分布式框架中的灵活性,被广泛应用于计算机视觉、数据挖掘和机器学习等许多研究领域。通常,不同机器之间的通信是不可避免的,在处理大数据问题时,它的网络和时间成本总是非常大。已有经验研究表明,基于分布式ADMM的算法收敛速度慢,且时间开销大,这是分布式共识优化的固有问题和瓶颈。因此,设计和实现高效的分布式ADMM算法,通过更快的收敛速度来提高时间效率是一个重要的问题。

发明内容

本发明的目的在于提出一种基于ADMM的不平衡大数据分布式分类方法。

实现本发明的技术解决方案:一种基于ADMM的不平衡大数据分布式分类方法,包括如下步骤:

步骤1、将不平衡的大数据集划分成n份可独立计算的小数据集,并将n份小数据集分别放入n台从机中用于每台机器的本地训练;

步骤2、从训练样本中随机选取样本,采用对偶坐标下降法对每个问题的对偶问题进行优化,计算出局部模型的局部变量wi;所述小数据集对应一个小问题;

步骤3、将所有从机计算出的局部变量wi发送给主机;

步骤4、主机利用从机发送来的局部变量wi更新全局变量z;

步骤5、主机收到每个从机发来的wi和ui并计算出z后,将z广播给每个从机以进行下一轮计算直至满足终止条件。

进一步的,步骤3等待步骤2中所有从机的局部变量wi计算出来后,将所有的局部变量发送给主机。

进一步的,步骤5中主机将全局变量广播给所有从机后重复步骤2至步骤4直至满足终止条件。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110781204.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top