[发明专利]一种大数据环境下的数据挖掘方法和装置有效
申请号: | 201510249652.3 | 申请日: | 2015-05-15 |
公开(公告)号: | CN104809244B | 公开(公告)日: | 2018-02-09 |
发明(设计)人: | 马泳宇 | 申请(专利权)人: | 成都睿峰科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京天奇智新知识产权代理有限公司11340 | 代理人: | 杨春 |
地址: | 610041 四川省成都市高新区*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种大数据环境下的数据挖掘方法,包括步骤S100,大数据预处理;步骤S200,大数据切分和管理;步骤S300,建立聚类用的超图模型;步骤S400,大数据映射,具体是将切分后的数据块分别映射到超图H=(V,E),即每个数据块映射到一个超图;步骤S500,利用超图对每个数据块分别进行聚类处理;步骤S600,对步骤S500得到的每个数据块的聚类结果进行再次聚类,得到最终的聚类结果。本发明利用云平台结合超图理论对大数据进行挖掘聚类处理,实现了大数据分析处理的快速、实时、准确。 | ||
搜索关键词: | 一种 数据 环境 挖掘 方法 装置 | ||
【主权项】:
一种大数据环境下的数据挖掘方法,包括:步骤S100,大数据预处理,通过填写缺失值、噪声数据光滑化、识别删除离群点将现实世界的数据进行清理,并将来自不同数据源的数据进行规范化处理,将其转换为标准格式的数据;步骤S200,大数据切分和管理:将大数据切块后,得到切分后的多个数据块,并将其存储到云平台的分布式文件系统HDFS中,Hadoop负责管理切分后的数据块;步骤S300,建立聚类用的超图模型,步骤S400,大数据映射,具体是将切分后的数据块分别映射到超图H=(V,E),即每个数据块映射到一个超图;步骤S500,利用超图对每个数据块分别进行聚类处理,具体包括:对于超图H=(V,E),C为顶点V的一个类集,ci∈C是V的子集,对于任意两个类ci和cj,有ci∩cj≠φ,对于一个超边em和一个类ci,如果em∩ci≠φ,则em和ci之间存在关系,该关系表示为:HC(em,ci)=|em∩ci||em|×|em∩ci||ci|,]]>其中,|em|表示超边em中顶点数目,|ci|表示类ci中顶点数目,|em∩ci|是同时出现在em和ci中的顶点数目,将类ci和类cj合并为cij,cij=ci∪cj,对于超边em,em∩ci≠φ,如果HC(em,ci)>HC(em,cij),则超边em中有cj的顶点,HC值的变化体现了ci和cj之间相对超边em的相似度;定义类ci的质量Q(ci)为:Q(ci)=Σem∈E|em∩ci|×w(em)×HC(|em,ci|),]]>即类ci的质量为所有超边em∈E的带权重的HC(em,ci)值的和;定义合并指数f为:f(ci,cj)=Q(cij)‑[Q(ci)‑Q(cj)];聚类处理的具体过程包括:(1)初始化类集C,使C中每一个类对应V中每一个顶点;(2)遍历超图中所有的类,为每个类ci找到一个类cj,使得他们的合并指数最大,即f(ci,cj)的值最大,如果f(ci,cj)>0,则合并类ci和类cj为类cij;(3)用所有合并后的类构建新超图;(4)所述新超图对应k个分割{G1,G2,…Gk},为第i个分割中所有边的权重均值,为第i个分割中所有边的权重均方差,计算如下:Di‾=Σe⋐Gi(|w(e)-wi‾|)2|{e|e⋐Gi}|,]]>其中,i=1,2,…,k,e表示超图中的超边,Gi表示超图的第i个分割,w(e)表示超边e对应的权重,表示分割Gi中超边e的顶点个数;(5)判断是否大于第一阈值,如果大于第一阈值,则重复执行步骤(1)~(4)的聚类过程,否则,结束聚类过程;步骤S600,对步骤S500得到的每个数据块的聚类结果进行再次聚类,得到最终的聚类结果;其中,步骤S300,建立聚类用的超图模型,具体包括:建立带权的超图H=(V,E),其中,V是顶点的集合,E是超边的集合,每个超边都能够连接两个以上的顶点,用超图的顶点来表示用来聚类的数据项,用超边来表示其所连接的顶点所表示的数据项的关联情况,w(em)是对应于E中的每一条超边em的权重,em∈E,w(em)用来衡量由超边连接起来的多个相关数据项之间的相关程度;其中,超边em的权重为:用每一条超边em的关联规则的支持度作为该超边的权重;关联规则:关联规则表示为:R:X→Y,其中且X∩Y=φ,它表示如果项集X在某一事务中出现,必然会导致项集Y也会在同一事务中出现,X称为规则的先决条件,即前项,Y称为规则的结果,即后项;关联规则的支持度:对于关联规则R:X→Y,规则R的支持度是指数据库D中同时包含项集X和项集Y的交易数与所有交易数之比。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都睿峰科技有限公司,未经成都睿峰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510249652.3/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置