[发明专利]基于Spark与蚁群优化的多目标并行属性约简方法有效
申请号: | 201910492176.6 | 申请日: | 2019-06-06 |
公开(公告)号: | CN110222023B | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 危前进;魏继鹏 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/174;G06N3/00 |
代理公司: | 桂林市持衡专利商标事务所有限公司 45107 | 代理人: | 陈跃琳 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 spark 优化 多目标 并行 属性 方法 | ||
1.基于Spark与蚁群优化的多目标并行属性约简方法,其特征是,具体包括步骤如下:
步骤1、将决策信息系统上传至分布式文件系统HDFS中,HDFS会自动地将决策信息系统中的数据切分为多个数据分片分布至各个计算机节点,且各个数据分片独立不重叠;上述各个计算机节点中有一个为主节点,其余均为从节点;
步骤2、各个计算机节点包括主节点和从节点,对其所分得的数据分片进行属性提取,并将其以键值对key,value的形式进行存储;此时,所得键值对key,value中的key值为条件属性i及其取值,条件属性j及其取值,决策属性的取值;所得键值对key,value中的value值为1;
步骤3、各个从节点将其所存储的键值对key,value上传到主节点,主节点对主节点自身存储的所有键值对key,value和各个从节点上传的所有键值对key,value进行等价类求和操作,即将这些键值对key,value中相同key值所对应的value值进行数值累加;此时,所得键值对key,value中的key值保持不变;所得键值对key,value中的value值为求和所得数值;
步骤4、主节点对步骤3所得键值对key,value进行重新定义,即将这些键值对key,value中的key值包含的决策属性值去除;此时,所得键值对key,value中的key值为条件属性i及其取值,条件属性j及其取值;所得键值对key,value中的value值保持不变;
步骤5、主节点再次对步骤4所得键值对key,value进行等价类合并操作,即将这些键值对key,value中相同key值所对应的value值以数组形式合并;此时,所得键值对key,value中的key值保持不变;所得键值对key,value中的value值为合并所得数组;
步骤6、主节点将步骤5所得的键值对key,value广播到各个从节点;各个计算机节点包括主节点和从节点,根据所得到的键值对key,value,计算各个属性相对于决策属性的单属性局部条件熵,以及每2个属性之间相对决策属性的属性对局部条件熵;
步骤7、从节点将所其所计算的所有单属性局部条件熵和属性对局部条件熵同时上传到主节点;主节点对各个属性的所有单属性局部条件熵进行相加,得到单属性全局条件熵;同时,主节点对各个属性对局部条件熵进行相加,得到属性对全局条件熵;最后,主节点根据单属性全局条件熵和属性对全局条件熵计算得到每2个属性之间的启发信息;
步骤8、主节点基于步骤7所计算的每2个属性之间的启发信息,利用蚁群算法对决策信息系统中的条件属性集进行约简;
上述i,j∈C,C表示条件属性集,j≠i。
2.根据权利要求1所述基于Spark与蚁群优化的多目标并行属性约简方法,其特征是,
步骤3中,key值相同是指条件属性i,条件属性i的取值,条件属性j,条件属性j的取值,以及决策属性的取值均完全相同;
步骤5中,key值相同是指条件属性i,条件属性i的取值,条件属性j,以及条件属性j的取值均完全相同。
3.根据权利要求1所述的基于Spark与蚁群优化的多目标并行属性约简方法,其特征是,启发信息ηij为:
其中,H(D|i)表示条件属性i相对于决策属性D的条件熵,H(D|j)表示条件属性j相对于决策属性D的条件熵,H(D|i∪j)表示条件属性i与条件属性j的并集相对于表示决策属性D的条件熵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910492176.6/1.html,转载请声明来源钻瓜专利网。