[发明专利]基于Hadoop的邻域粗糙集快速属性约简方法有效

专利信息
申请号: 201310224008.1 申请日: 2013-06-06
公开(公告)号: CN103336790A 公开(公告)日: 2013-10-02
发明(设计)人: 蒋云良;杨建党;刘勇;范婧;张雄涛 申请(专利权)人: 湖州师范学院
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京天奇智新知识产权代理有限公司 11340 代理人: 韩洪
地址: 313000 *** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于Hadoop的邻域粗糙集快速属性约简方法,包括a)建立基于Hadoop的分布式平台、b)邻域粗糙集定义、c)生成候选集、d)计算每个属性的重要度、e)选择重要度最大的属性加入到候选集、f)判断是否满足停止条件、g)保存特征选择的状态等步骤。本发明基于Hadoop分布式平台对并行的数据挖掘算法并行化进行分析,实现了邻域粗糙集属性约简算法的并行化,并行后的属性约简大大降低了时间复杂度,执行中间过程大大减少了中间结果的输出,提高了大规模数据的分析效率,从而将纷繁多样的海量数据转换成具有信息和商业价值的可用数据,进而完成数据挖掘和分析优化。
搜索关键词: 基于 hadoop 邻域 粗糙 快速 属性 方法
【主权项】:
1.基于Hadoop的邻域粗糙集快速属性约简方法,其特征在于:包括以下步骤:a)建立基于Hadoop的分布式平台:建立HDFS分布式文件系统和MapReduce并行编程模型;所述HDFS分布式文件系统采用主从结构体系,由一个管理者和多个工作者构成,管理者管理文件系统的命名空间,维护文件系统树及整棵树内所有的文件和目录,工作者是文件系统的工作节点,根据需要存储并检索数据块,并且定期向管理者发送“心跳”报告,如果管理者在指定的时间段内没有收到工作者的“心跳”报告,则管理者启动容错机制对其进行处理;所述MapReduce并行编程模型将任务分成若干小任务去执行,每个小任务对集群节点本地存储的数据块进行处理;b)邻域粗糙集定义:在混合属性的数据库中,将一个邻域信息系统表示为:NIS=<U,A,V,f>,式中:U是样例的集合,A是属性的集合,V是属性的值域,f是信息函数:U×A→V;设B是一个数值特征子集,则对于B,x的邻域是δB(x)={xi|xiδa(x),aB};]]>c)生成候选集:采用搜索策略生成一组待评价特征子集作为候选集,最初的候选集是空集或者特征全集或者随机产生的一组特征子集;d)计算每个属性的重要度:建立一个Mapper类和一个Reducer类,Mapper类读入样本数据,并将样本集合按照已选的属性集合为每个待评价的属性分配对应的样本集合作为Reducer类的输入,每个reducer只接受一个属性的所有样本子集,并在一个reducer之内通过组合键数据进行分区,Reducer任务的个数就是待评价的属性个数,对应的样本集合将以不同的属性编号输入到对应的Reducer任务中,多个Reducer任务并行执行,给定一个邻域决策系统NDT=<U,AUD,V,f>,定义属性a的重要度计算为SIG(a,B,D)=γB(D)-γB-a(D),SIG(a,B,D)反应了属性a对决策属性D的重要程度,用来评价每个属性的重要度;e)选择重要度最大的属性加入到候选集:将d)步骤中的输出作为本步骤的输入,与之前最大的重要度值进行比较,如果当前属性的重要度值更高,则把当前的属性作为最好的特征子集添加到候选集中;f)判断是否满足停止条件:采用特征产生过程和评价过程作为停止条件,特征产生过程的停止条件有两种:一种是判断是否已经选择了预先定义的特征个数,另一种是判断是否已经达到预先定义的迭代个数;评价过程的停止条件有两种:一种是判断是否添加或剔除了一个特征将产生一个更好的特征子集,另一种是判断是否最优特征子集已经得到;g)保存特征选择的状态:分别保存已选择的特征集合和未选择的特征集合,d)步骤中对未选择的特征集合计算重要度,f)步骤中已选择的特征集合和未选择的特征集合进行更新,最后将已选择的特征集合和未选择的特征集合作为结果输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖州师范学院,未经湖州师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310224008.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top