[发明专利]一种基于云计算的聚类特征等值直方图的维护方法在审

专利信息
申请号: 201310440281.8 申请日: 2013-09-25
公开(公告)号: CN103488757A 公开(公告)日: 2014-01-01
发明(设计)人: 侯德龙;马旭军;曹玲玲;方雪静 申请(专利权)人: 浪潮电子信息产业股份有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 250014 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供一种基于云计算的聚类特征等值直方图的维护方法,从聚类方法中采用不同的策略,该方法在簇的层次上优化聚类参数来定义聚类标准函数(或全局相似测量)。每个新的数据和现有簇进行比较,而不是每个数据。全局度量计算速度远远超过成对相似性度量。利用全局相似性度量的概念,对异构XML文档进行有效分组的具有层级相似的XML文档聚类(XCLS)方法。另一个XCLS的优点是它的层级结构格式,该格式是为在聚类处理中有效表述文件而开发的。为提高聚类过程速度,在层级结构式包含在标记名称中的语义将被忽略,将用编号代替。事实上,聚类过程也不包括标签的内容。新的全局标准函数,叫做LevelSim,是在聚类级别利用层级关系测量文件属性之间的相似性。实验结果表明,XCLS是一种准确,快速和可扩展的XML文档分组方法。
搜索关键词: 一种 基于 计算 特征 等值 直方图 维护 方法
【主权项】:
一种基于云计算的聚类特征等值直方图的维护方法, 其特征在于对滑动窗口进行聚类,采用反应数据结构的聚类特征等值直方图来表示,聚类特征等值直方图根据元组的到达时标将元组划分为若干个桶,每一个桶存储该组元组的聚类特征,称为时间聚类特征,时间聚类特征除了包含聚类特征外,还含有时标信息,当聚类特征等值直方图中的第一个桶的时标不再属于当前最近的N个时标内时,则删除该桶;等值直方图的维护是基于滑动窗口的,若滑动窗口未满的时候直接进行聚类操作,先进行等值直方图的删除,然后在聚类,假设新进入的XML文档概化结构x,窗口大小N,相似度阙值LevelSim,以聚类的簇为EHCF,维护步骤如下:1:判断滑动窗口大小是否等于N;2:若不等于{3:循环遍历所有EHCF与x的相似度大小;4:若大于阙值把x加入到该EHCF;5:否则继续遍历6:}若等于窗口大小N{7:找到最早进入窗口的XML文档所在的簇;8:删除该簇中最早到达的TCF;9:重复操作步骤3到5;10:}11:当3步骤找到相似度大于阙值的簇EHCF的时候,就要进行EHCF的添加工作,首先判断EHCF中最后添加的桶TCF内保存的XML文档个数是否已经达到桶的最大值,若未达到直接把x添加到该TCF中,否则在EHCF重新创建一个TCF把x加入其中;12:如果进入x的时候窗口已满,则要进行删除工作,首先根据EHCF中保存的时间戳TimeStep找到窗口内最早进入的EHCF,然后找到该EHCF中最早进入的TCF,删除这个TCF,这样窗口内就减少了n个XML文档,这样就能继续添加最近的XML文档了。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310440281.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top