[发明专利]用于XML文档分类的语义相似度度量方法有效
申请号: | 201010590689.X | 申请日: | 2010-12-14 |
公开(公告)号: | CN102033867A | 公开(公告)日: | 2011-04-27 |
发明(设计)人: | 张利军;陈群;李战怀;娄颖;李霞;崔海文 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 顾潮琪 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 xml 文档 分类 语义 相似 度量 方法 | ||
技术领域
本发明属于数据识别技术领域,尤其是一种用于文档分类的相似度度量方法。
背景技术
XML作为互联网上数据表示和数据交换的标准,已得到广泛的应用。随着XML文档数量的不断增长,如何对XML数据进行有效的管理在数据库和信息检索领域变得越来越重要。在很多XML数据应用,例如版本控制、半结构化数据集成、XML文档分类/聚类、XML检索等领域,如何度量XML文档之间的相似度成为一个重要的问题,尤其在XML文档分类/聚类应用中,需要根据文档之间的相似度把XML文档归到不同的类别中。
根据文献“Tekli J,Chbeir R,Yetongnon K.An overview on XML similarity:Background,current trends and future directions.Computer ScienceReview,2009,3(3):151-173.”,度量XML文档之间相似度的方法大体可分成基于编辑距离(ED,Edit Distance)的方法、基于信息检索(IR,Information Retrieval)的方法以及其它一些方法。
基于编辑距离的方法一般都忽略了包含在文档中的内容信息,利用结构信息计算文档距离并进行分类,这种方法的缺点在于编辑距离的计算开销很大。文献“DalamagasT,Cheng T,Winel KJ,Sellis T.A methodology for clustering XML documents by structure.Information Systems,2006,31(3):187-228.”首先对XML文档进行简化,得到文档的Summary Tree,然后计算Summary Tree之间的编辑距离来进行分类。虽然这种方法降低了计算树编辑距离的时间复杂性,但是Summary Tree并不能很好地保持原有文档的结构。文献“Xing G,Guo J,Xia ZH.Classifying XML Documents Based onStructure/Content Similarity.Comparative Evaluation of XML Information RetrievalSystems,2007,4518:444-457.”通过计算XML文档与Schema之间的编辑距离对XML文档进行分类,这种方法假设属于同一个类别的所有XML文档具有共同的Schema,并且该Schema可以得到。事实上属于同一类别的XML文档很多情况下并不具有共同的Schema,而且XML文档的Schema并非总是可以轻易获得,虽然文中提出了一种从XML文档中抽取Schema的方法,但这需要额外的开销。由于基于编辑距离的方法忽略了文档的内容,因而并没有利用关键字的语义信息。
传统的基于信息检索的方法将文档表示为一个向量,向量的每个分量为该文档中所包含的关键字在该文档中的权重,然后任意两个文档之间的相似度可以转换为计算两个向量的距离。关键为如何计算关键字的权重,使用最多的方法是tf-idf公式,这种方法仅仅利用文档中的内容信息,并未考虑到XML文档中的结构信息,因此不完全适用于XML文档的相似度计算。针对XML文档,也有方法对tf-idf方法进行扩展,同时利用XML文档中的结构和内容信息,例如文献“袁家政,须德,鲍泓.基于结构与文本关键词相关度的xml网页分类研究.计算机研究与发展,2006,43(8):1361-1367.”在计算关键字的权重时考虑了关键字出现在不同树节点的位置以及位置的权重,但仅仅考虑关键字在不同树节点的位置和位置权重还未能完全利用包含在其中的语义信息,比如还可以考虑包含关键字的路径的层次,包含路径的文档数以及同时包含路径和关键字的文档数等信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010590689.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:环保荷重式纸栈板结构
- 下一篇:立式包装机上的插角机构