[发明专利]一种大数据环境下的数据挖掘方法和装置有效

专利信息
申请号: 201510249652.3 申请日: 2015-05-15
公开(公告)号: CN104809244B 公开(公告)日: 2018-02-09
发明(设计)人: 马泳宇 申请(专利权)人: 成都睿峰科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京天奇智新知识产权代理有限公司11340 代理人: 杨春
地址: 610041 四川省成都市高新区*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出了一种大数据环境下的数据挖掘方法,包括步骤S100,大数据预处理;步骤S200,大数据切分和管理;步骤S300,建立聚类用的超图模型;步骤S400,大数据映射,具体是将切分后的数据块分别映射到超图H=(V,E),即每个数据块映射到一个超图;步骤S500,利用超图对每个数据块分别进行聚类处理;步骤S600,对步骤S500得到的每个数据块的聚类结果进行再次聚类,得到最终的聚类结果。本发明利用云平台结合超图理论对大数据进行挖掘聚类处理,实现了大数据分析处理的快速、实时、准确。
搜索关键词: 一种 数据 环境 挖掘 方法 装置
【主权项】:
一种大数据环境下的数据挖掘方法,包括:步骤S100,大数据预处理,通过填写缺失值、噪声数据光滑化、识别删除离群点将现实世界的数据进行清理,并将来自不同数据源的数据进行规范化处理,将其转换为标准格式的数据;步骤S200,大数据切分和管理:将大数据切块后,得到切分后的多个数据块,并将其存储到云平台的分布式文件系统HDFS中,Hadoop负责管理切分后的数据块;步骤S300,建立聚类用的超图模型,步骤S400,大数据映射,具体是将切分后的数据块分别映射到超图H=(V,E),即每个数据块映射到一个超图;步骤S500,利用超图对每个数据块分别进行聚类处理,具体包括:对于超图H=(V,E),C为顶点V的一个类集,ci∈C是V的子集,对于任意两个类ci和cj,有ci∩cj≠φ,对于一个超边em和一个类ci,如果em∩ci≠φ,则em和ci之间存在关系,该关系表示为:HC(em,ci)=|em∩ci||em|×|em∩ci||ci|,]]>其中,|em|表示超边em中顶点数目,|ci|表示类ci中顶点数目,|em∩ci|是同时出现在em和ci中的顶点数目,将类ci和类cj合并为cij,cij=ci∪cj,对于超边em,em∩ci≠φ,如果HC(em,ci)>HC(em,cij),则超边em中有cj的顶点,HC值的变化体现了ci和cj之间相对超边em的相似度;定义类ci的质量Q(ci)为:Q(ci)=Σem∈E|em∩ci|×w(em)×HC(|em,ci|),]]>即类ci的质量为所有超边em∈E的带权重的HC(em,ci)值的和;定义合并指数f为:f(ci,cj)=Q(cij)‑[Q(ci)‑Q(cj)];聚类处理的具体过程包括:(1)初始化类集C,使C中每一个类对应V中每一个顶点;(2)遍历超图中所有的类,为每个类ci找到一个类cj,使得他们的合并指数最大,即f(ci,cj)的值最大,如果f(ci,cj)>0,则合并类ci和类cj为类cij;(3)用所有合并后的类构建新超图;(4)所述新超图对应k个分割{G1,G2,…Gk},为第i个分割中所有边的权重均值,为第i个分割中所有边的权重均方差,计算如下:Di‾=Σe⋐Gi(|w(e)-wi‾|)2|{e|e⋐Gi}|,]]>其中,i=1,2,…,k,e表示超图中的超边,Gi表示超图的第i个分割,w(e)表示超边e对应的权重,表示分割Gi中超边e的顶点个数;(5)判断是否大于第一阈值,如果大于第一阈值,则重复执行步骤(1)~(4)的聚类过程,否则,结束聚类过程;步骤S600,对步骤S500得到的每个数据块的聚类结果进行再次聚类,得到最终的聚类结果;其中,步骤S300,建立聚类用的超图模型,具体包括:建立带权的超图H=(V,E),其中,V是顶点的集合,E是超边的集合,每个超边都能够连接两个以上的顶点,用超图的顶点来表示用来聚类的数据项,用超边来表示其所连接的顶点所表示的数据项的关联情况,w(em)是对应于E中的每一条超边em的权重,em∈E,w(em)用来衡量由超边连接起来的多个相关数据项之间的相关程度;其中,超边em的权重为:用每一条超边em的关联规则的支持度作为该超边的权重;关联规则:关联规则表示为:R:X→Y,其中且X∩Y=φ,它表示如果项集X在某一事务中出现,必然会导致项集Y也会在同一事务中出现,X称为规则的先决条件,即前项,Y称为规则的结果,即后项;关联规则的支持度:对于关联规则R:X→Y,规则R的支持度是指数据库D中同时包含项集X和项集Y的交易数与所有交易数之比。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都睿峰科技有限公司,未经成都睿峰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510249652.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top