[发明专利]一种大数据环境下的数据挖掘方法和装置有效

申请号：	201510249652.3	申请日：	2015-05-15
公开（公告）号：	CN104809244B	公开（公告）日：	2018-02-09
发明（设计）人：	马泳宇	申请（专利权）人：	成都睿峰科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京天奇智新知识产权代理有限公司11340	代理人：	杨春
地址：	610041 四川省成都市高新区***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出了一种大数据环境下的数据挖掘方法，包括步骤S100，大数据预处理；步骤S200，大数据切分和管理；步骤S300，建立聚类用的超图模型；步骤S400，大数据映射，具体是将切分后的数据块分别映射到超图H＝(V,E)，即每个数据块映射到一个超图；步骤S500，利用超图对每个数据块分别进行聚类处理；步骤S600，对步骤S500得到的每个数据块的聚类结果进行再次聚类，得到最终的聚类结果。本发明利用云平台结合超图理论对大数据进行挖掘聚类处理，实现了大数据分析处理的快速、实时、准确。
搜索关键词：	一种数据环境挖掘方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种大数据环境下的数据挖掘方法，包括：步骤S100，大数据预处理，通过填写缺失值、噪声数据光滑化、识别删除离群点将现实世界的数据进行清理，并将来自不同数据源的数据进行规范化处理，将其转换为标准格式的数据；步骤S200，大数据切分和管理：将大数据切块后，得到切分后的多个数据块，并将其存储到云平台的分布式文件系统HDFS中，Hadoop负责管理切分后的数据块；步骤S300，建立聚类用的超图模型，步骤S400，大数据映射，具体是将切分后的数据块分别映射到超图H＝(V,E)，即每个数据块映射到一个超图；步骤S500，利用超图对每个数据块分别进行聚类处理，具体包括：对于超图H＝(V,E)，C为顶点V的一个类集，ci∈C是V的子集，对于任意两个类ci和cj，有ci∩cj≠φ，对于一个超边em和一个类ci，如果em∩ci≠φ，则em和ci之间存在关系，该关系表示为：HC(em,ci)=|em∩ci||em|×|em∩ci||ci|,]]>其中，|em|表示超边em中顶点数目，|ci|表示类ci中顶点数目，|em∩ci|是同时出现在em和ci中的顶点数目，将类ci和类cj合并为cij，cij＝ci∪cj，对于超边em，em∩ci≠φ，如果HC(em,ci)>HC(em,cij),则超边em中有cj的顶点，HC值的变化体现了ci和cj之间相对超边em的相似度；定义类ci的质量Q(ci)为：Q(ci)=Σem∈E|em∩ci|×w(em)×HC(|em,ci|),]]>即类ci的质量为所有超边em∈E的带权重的HC(em,ci)值的和；定义合并指数f为：f(ci,cj)＝Q(cij)‑[Q(ci)‑Q(cj)]；聚类处理的具体过程包括：(1)初始化类集C，使C中每一个类对应V中每一个顶点；(2)遍历超图中所有的类，为每个类ci找到一个类cj，使得他们的合并指数最大，即f(ci,cj)的值最大，如果f(ci,cj)>0，则合并类ci和类cj为类cij；(3)用所有合并后的类构建新超图；(4)所述新超图对应k个分割{G1,G2,…Gk}，为第i个分割中所有边的权重均值，为第i个分割中所有边的权重均方差，计算如下：Di‾=Σe⋐Gi(|w(e)-wi‾|)2|{e|e⋐Gi}|,]]>其中，i＝1,2,…,k，e表示超图中的超边，Gi表示超图的第i个分割，w(e)表示超边e对应的权重，表示分割Gi中超边e的顶点个数；(5)判断是否大于第一阈值，如果大于第一阈值，则重复执行步骤(1)～(4)的聚类过程，否则，结束聚类过程；步骤S600，对步骤S500得到的每个数据块的聚类结果进行再次聚类，得到最终的聚类结果；其中，步骤S300，建立聚类用的超图模型，具体包括：建立带权的超图H＝(V,E)，其中，V是顶点的集合，E是超边的集合，每个超边都能够连接两个以上的顶点，用超图的顶点来表示用来聚类的数据项，用超边来表示其所连接的顶点所表示的数据项的关联情况，w(em)是对应于E中的每一条超边em的权重，em∈E，w(em)用来衡量由超边连接起来的多个相关数据项之间的相关程度；其中，超边em的权重为：用每一条超边em的关联规则的支持度作为该超边的权重；关联规则：关联规则表示为：R:X→Y，其中且X∩Y＝φ，它表示如果项集X在某一事务中出现，必然会导致项集Y也会在同一事务中出现，X称为规则的先决条件，即前项，Y称为规则的结果，即后项；关联规则的支持度：对于关联规则R:X→Y，规则R的支持度是指数据库D中同时包含项集X和项集Y的交易数与所有交易数之比。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都睿峰科技有限公司，未经成都睿峰科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510249652.3/，转载请声明来源钻瓜专利网。

上一篇：考虑在使用期间的材料性质变化的改进的产品设计可靠性
下一篇：音乐信息的推荐方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种大数据环境下的数据挖掘方法和装置有效

专利文献下载