[发明专利]一种XML文档结构概要间的相似性度量方法无效
申请号: | 201210048443.9 | 申请日: | 2012-02-27 |
公开(公告)号: | CN102622432A | 公开(公告)日: | 2012-08-01 |
发明(设计)人: | 高明霞 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及数据挖掘技术领域,具体涉及一种XML文档结构概要间的相似性度量方法。为了从结构角度在线快速聚类XML数据流,满足这类算法对内存和时间的较高要求,提供一种XML文档的结构概要以及这种结构概要间的相似性度量方法。该算法将XML文档以SAX格式解析后,借助全局名称-代码索引表和进行式栈技术将该文档形式化成一个可增量表示的概要数据结构——元素链(NodeList),然后通过一个自定义公式计算两元素链间的相似性。本发明使用SAX解析XML文档,并利用了进行式栈技术获取层值,使得建立结构概要的过程中,内存消耗很小。整个内存消耗基本花费在保存元素链式的聚类结果和全局名称-索引表上。 | ||
搜索关键词: | 一种 xml 文档 结构 概要 相似性 度量 方法 | ||
【主权项】:
1.一种XML文档结构概要间的相似性度量方法,其特征在于步骤如下:1)为待处理的XML文档流或文档集定义全局元素名称-代码索引表,并将该表置空;该表中每个节点包括两部分内容:一部分是字符串格式用于存放待处理XML文档流或文档集包含的相异元素的名称;另一部分是整数格式用于存放该元素对应的整数编码;编码规则如下:当XML文档以SAX格式解析时,这个整数表示该元素开始事件在全部相异元素开始事件流中第一次出现的顺序;2)依据SAX格式解析XML文档,获取每个元素的开始事件,查找全局元素名称-代码索引表,如果元素名称已在链表中,则该元素的编码就是元素名称对应的整数;如果元素名称不在链表中,则该元素的编码值等于链表中现有最大整数加一,且该元素名称和对应整数编码作为新节点插入全局元素名称-代码索引表;3)基于进行式栈技术获取特定元素的层值,具体操作如下:依据SAX格式解析XML文档,文档开始事件激活一个空栈结构,随着XML文档中元素数据元组的动态变化进行入栈和出栈操作,即元素开始事件和结束事件分别对应元素入栈和出栈两种操作,元素的层数值等同于所在栈的指针标记;4)利用获取到的相异元素整数编码和其层值创建XML文档结构概要成为可增量表示的偏序元素链;5)元素链以元素的编码整数为索引,具有可组合性,只是组合结果要满足同层同名重复元素只保留一个副本,具体组合过程如下:给定两个元素链a和b,从链表头部开始比较两个元素链中第一个节点的编码,如果a=b,则继续比较第一个节点的层值,如果层值也相等,则将a中第一个节点插入到结果元素链,否则将a和b中第一个节点都插入到结果元素链,继续比较两链表的下一个节点;如果第一个节点编码比较结果为a>b,则将b元素链中第一个节点插入到结果元素链,继续比较a中第一个节点和b中下一个节点;如果第一个节点编码比较结果为a<b,则将a元素链中第一个节点插入到结果元素链,继续比较b中第一个节点和a中下一个节点;比较两个偏序元素链获取公有元素及其对应层值,比较过程如下:给定两个元素链a和b,从链表头部开始比较且节点是基本的移动单位,如果a中元素编码小于等于b中元素编码,则a移动到下一个节点,否则b移动到下一个节点,比较过程继续;比较过程中记录相等元素编码及其对应层值用于计算元素链间的相似性;NodeSim 1 ↔ 2 = ComWeight 1 + ComWeight 2 ObjWeight 1 + ObjWeight 2 ]]>= Σ i = 1 M 1 ( 1 / r ) L 1 i + Σ j = 1 M 2 ( 1 / r ) L 2 j Σ k = 1 N 1 ( 1 / r ) L 1 k + Σ k = 1 N 2 ( 1 / r ) L 2 k ]]> 其中,ComWeight1与ComWeight2分别表示第一个与第二个元素链中包含的公有元素的权重累加和;ObjWeight1和ObjWeight2分别表示第一个和第二个元素链中包含的所有元素的权重累加和;N1和N2分别表示第一个和第二个元素链的元素个数;M1和M2分别表示第一个和第二个元素链中公有元素的个数;
表示第一个元素链的第i个公有元素层数,
表示第二个元素链的第j个公有元素的层数;
和
分别表示第一个和第二个元素链的第k个元素的层数;r是权重的递减因子,其值要大于1。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210048443.9/,转载请声明来源钻瓜专利网。
- 上一篇:嵌入式玻璃托板
- 下一篇:背光模块以及液晶显示装置