[发明专利]基于MapReduce的并行特征选择方法在审
申请号: | 201310467990.5 | 申请日: | 2013-10-09 |
公开(公告)号: | CN103559205A | 公开(公告)日: | 2014-02-05 |
发明(设计)人: | 孙占全;顾卫东;李钊;赵彦玲 | 申请(专利权)人: | 山东省计算中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 褚庆森 |
地址: | 250101 山东省济南市高新区新*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明的基于MapReduce的并行特征选择方法,包括:a)将数据划分为 |
||
搜索关键词: | 基于 mapreduce 并行 特征 选择 方法 | ||
【主权项】:
1.一种基于MapReduce的并行特征选择方法,其特征在于,通过以下步骤来实现:a).数据划分,将初始数据
平均划分为
份,设其分别为
、
、…、
;b).数据部署,设参与运算的计算节点的数目为
个,将划分后的
份数据平均分配到
个Map计算节点上;c).建立向量,设
和
为两个向量,其中
Φ,
,
表示已选择的特征集,初始为空集;
表示未选中的特征集,初始为数据
的所有特征变量,
为特征变量数;设
为类变量,设需要从
个特征变量中选取
个特征;d).求取联合互信息,对于
个Map计算节点中的任意一个计算节点
来说,在处理每一份数据的过程中,均计算向量
与类变量
之间的联合互信息
,其中:
,
;e).选取特征变量,步骤d)中,使联合互信息
最大的特征变量
作为该计算节点从该份数据中选择的特征变量,并将该特征变量序列号
和相应的联合互信息值传递给Reduce计算节点;f).统计被选中特征的数目,在Reduce计算节点,统计所有Map计算节点记录的特征变量的序列号,判断是否存在统计数量相等的特征变量,如果不存在,则将统计数量最多的序列号所对应的特征变量
作为选取的全局特征变量;如果存在,则执行步骤g);g).联合互信息值的比较,对统计数量相等的特征变量,分别对各自变量所对应的联合互信息值进行求和计算,选择具有较大联合互信息值的特征变量
作为全局特征变量;h).被选中特征的添加和删除,将选中的全局特征变量
添加至向量
中,即令
;并将选中的全局特征变量
从向量
中删除,即令
;i).判断选中特征的数目,判断已选中特征变量的数目是否已达到
个,如果达到
个,则整个特征选择过程结束;如果没达到
个,则重复执行步骤d)~h)选择下一个特征。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省计算中心,未经山东省计算中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310467990.5/,转载请声明来源钻瓜专利网。
- 上一篇:冰箱及其蒸发盘组件
- 下一篇:超低温蓄冷器的制造方法及超低温蓄冷器