[发明专利]一种基于云计算的聚类特征等值直方图的维护方法在审

专利信息
申请号: 201310440281.8 申请日: 2013-09-25
公开(公告)号: CN103488757A 公开(公告)日: 2014-01-01
发明(设计)人: 侯德龙;马旭军;曹玲玲;方雪静 申请(专利权)人: 浪潮电子信息产业股份有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 250014 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 计算 特征 等值 直方图 维护 方法
【说明书】:

技术领域

发明涉及计算机应用技术领域,具体地说是一种基于云计算的聚类特征等值直方图的维护方法。

随着网络信息时代的来临,XML由于其良好的结构性和可扩展性,越来越多的用于网络信息的交流,这导致生成了大量XML数据流。如何从海量异构的XML文档中找到有用信息成为重要研究课题。其中面向XML数据流的聚类算法越来越多的得到人们的注意。为了在线聚类这些XML数据流,本文介绍了一种基于滑动窗口的XML聚类算法。该算法将XML文档或文档集概化为一种层结构,并将该层结构组织成等值直方图用于表示一个实时类;为了在线聚类的维护,采用了滑动窗口技术实现动态添加与删除XML文档的操作。

背景技术

数据流最初是通信领域中使用的概念,代表传输中使用的信息的数字编码信号序列。现在所说的数据流属于广义概念,指的是以流的形式产生的数据,其所用的范围广得多。广义上的数据流最早出现于传统的银行和股票交易领域,后来出现在地质测量、气象和天文观测等方面,而互联网和无线通信网的出现,同样产生了大量数据流类型的数据,比如网络流量监控、点击流和通话记录等。

传统的数据挖掘方法一般是针对静态数据的挖掘,在静态数据中它们可以高效地挖掘出有用的知识和信息,因此,最初对数据的分析往往是在脱机情况下进行的数据挖掘。然而一些新的应用对时间因素非常敏感,比如网络安全和国家安全领域方面,而传统的数据挖掘方法却无法适应高速的、大量的、实时性很强的数据流数据。因此,针对数据流的挖掘技术已经成为人们研究的重点。在数据流挖掘技术中,数据流一般采用这样的定义:数据流是指可能无限的、持续而快速到达的数据序列,它主要分为三种类型:Time Series Model,Cash Register Model,Turnstile Model。

到目前为止,理论界比较公认的数据流挖掘方法应具备如下特点[8]: 

(1)对于每条数据的处理都必须用很少的时间,否则数据的处理会落后于数据的积累。

(2)使用有限的内存;

(3)数据只能扫描一遍,因为没有时间和空间再访问以前的数据; 

(4)在任何时刻都能够得到模式,而不是在所有的处理完成后生成模式; 

(5)应建立与数据库中的数据模型等价或近似等价的数据模型;

(6)当数据的产生随时间变化而变化时,要保证模型在任何时候都是动态更新的,并且能保留过去未过时的信息; 

(7)尽量保证算法能够在线挖掘数据,也就是说尽量不采用先挖掘出中间结果,再通过中间结果挖掘出知识的方法,而是尽量使算法做到能在需要的时候直接输出挖掘结果。  

由于传统的数据挖掘方法已经很难适应数据流挖掘的过程,这就需要新的方法来专门处理数据流挖掘的问题。数据挖掘中一些基础性的挖掘技术,如分类、聚类和关联规则等,如果应用在数据流的环境中,都要对相应的挖掘算法提出更高的要求。因此数据流挖掘成为数据挖掘领域比较新的研究热点,也引起了越来越多人的关注。

随着网络技术的快速发展,XML由于其灵活性和自我们描述的性质,得到了广泛的应用。基于XML网络数据的一些例子包括技术期刊,文献数据库,雅虎,eBay,和政府部门。作为两个主要标准数据和元数据的表示XML被广泛采用,这导致XML的数据收集大量。因此,如何从海量异类的XML文件中找到有用信息迫在眉睫。

一些数据库工具满足XML数据的发送、存储、整合和查询。尽管如此,它们都需要有效地数据库管理技术,比如基于结构相似性上的索引技术。基于结构相似性上的索引技术现在广泛应用在网络搜索引擎的后台处理工作。当用户需要索引一批结构相似的XML文档数据的时候,如何从大量的异构XML数据中找到相似度足够高的一批文档就成了一个需要解决的重要问题。

数据挖掘技术的分支之一聚类恰好可以根据文件结构的相似性进行分组以便进行其他应用。XML结构相似性的评估同时对网络数据的管理有着极大的价值。许多从多个网络数据源提取整合相关信息的技术都需要根据它们的相似性对数据进行分组。

聚类技术在对海量的、符号和文本数据进行分组方面已经发展了很多年。XML数据的聚类和平面数据和文本的聚类有很大不同,甚至更复杂。

发明内容

本发明的目的是提供一种基于云计算的聚类特征等值直方图的维护方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310440281.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top