[发明专利]一种大数据环境下的数据挖掘方法和装置有效
申请号: | 201510249652.3 | 申请日: | 2015-05-15 |
公开(公告)号: | CN104809244B | 公开(公告)日: | 2018-02-09 |
发明(设计)人: | 马泳宇 | 申请(专利权)人: | 成都睿峰科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京天奇智新知识产权代理有限公司11340 | 代理人: | 杨春 |
地址: | 610041 四川省成都市高新区*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 环境 挖掘 方法 装置 | ||
技术领域
本发明涉及数据挖掘领域,具体涉及一种大数据环境下的数据挖掘方法和装置。
背景技术
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念。如今,这个概念几乎应用到了所有人类智力与发展的领域中。21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。地球上至今总共的数据量,在2006年个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;到2011年,这个数字达到了1.8ZB。而有市场研究机构预测,到2020年整个世界的数据总量将会增长44倍,达到35.2ZB!(1ZB=10亿TB)。
大数据既是数据量的一个激增(从最开始的ERP/CRM数据,逐步扩大到增加互联网数据,再到物联网的传感器等相关信息数据),同时也是数据复杂性的提升。大数据可以说是量积累到一定程度后形成的规模化质变。大数据的数据类型丰富多样,既有像原有的数据库数据等结构化信息,又有文本、视频等非结构化信息,而且数据的采集和处理速度要求也越来越快。
大数据包含了“海量数据”的含义,在内容上超越了海量数据,简而言之,大数据是“海量数据”+复杂类型的数据。大数据包括交易和交互数据集在内的所有数据集,其规模或复杂程度超出了常用技术按照合理的成本和时限捕捉、管理及处理这些数据集的能力。
大数据由三项主要技术趋势汇聚组成:
海量交易数据:在从ERP应用程序到数据仓库应用程序的在线交易处理(OLTP)与分析系统中,传统的关系数据以及非结构化和半结构化信息仍在继续增长。随着更多的数据和业务流程移向公共和私有云,这一局面变得更加复杂。内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态历史数据。通过这些数据,我们能了解过去发生了什么。
海量交互数据:这一新生力量由源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录(CDR)、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输(Manage File Transfer)协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。这些数据可以告诉我们未来会发生什么。
海量数据处理:利用多种轻型数据库来接收发自客户端的数据,并将其导入到一个集中的大型分布式数据库或者分布式存储集群,然后利用分布式数据库来对存储于其内的集中的海量数据进行普通的查询和分类汇总等,以此满足大多数常见的分析需求,同时对基于前面的查询数据进行数据挖掘,能满足高级别的数据分析需求。例如,YunTable是在传统的分布式数据库和新的NoSQL技术的基础上发展而来的新一代分布式数据库。通过它能构建一个百台级别的分布式集群来管理PB级别的海量数据。
面对大数据的汹涌来袭,传统的数据处理方式应对起来显得越来越困难,我们在很多时候就像面对一个金矿,却没有有效的工具和手段,只能望“数据”兴叹。传统分析技术面对大数据的困惑主要有:
由于分析手段限制,不能充分利用所有数据;
受限于分析能力而无法获取复杂问题的答案;
因为时限要求而不得不采用某项简单的建模技术;
因为没有足够时间运算,对模型精度进行妥协。
基于数据挖掘聚类研究的现状,现有的对于大数据聚类的挖掘,采用的方法多是采用对数据的抽样,选取具有代表性的数据,实现以点代面的聚类分析。在面对大数据处理时,一般采用的是基于样本抽取概率的方法实现,但抽样方法没有考虑数据点之间或区间之间全局的相对距离以及数据分布不均匀,出现划分区间过硬的问题。虽然后来,又引入聚类、模糊概念以及云模型等对区间划分过硬问题进行了改善,也取得了很好的效果,但这些方法均没有考虑大数据数据点对知识发现任务的不同作用。因此,为使挖掘得到的聚类规则更有效,更快速,必须从充分考虑数据点的不同作用入手,对聚类分析进行更深入的研究。而云计算正是基于现实中的大数据数据点之间的处理而提出的,这为挖掘更有效聚类规则提供了强大的理论基础。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都睿峰科技有限公司,未经成都睿峰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510249652.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置