[发明专利]一种基于近邻传播的XML文档谱聚类方法有效

申请号：	201210257005.3	申请日：	2012-07-24
公开（公告）号：	CN102799680A	公开（公告）日：	2012-11-28
发明（设计）人：	李新叶	申请（专利权）人：	华北电力大学（保定）
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京众合诚成知识产权代理有限公司 11246	代理人：	黄家俊
地址：	071003 河***	国省代码：	河北;13
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于近邻传播 xml 文档谱聚类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于Web数据管理技术领域，尤其涉及一种基于近邻传播的XML文档谱聚类方法。

背景技术

由于XML格式数据在web上的大量出现和广泛应用，对XML文档的搜索需求也越来越迫切。对于Internet上大量存在的自由XML文档，基于关键词的XML文档搜索技术不需要用户学习和掌握复杂的查询语言，也不需要用户了解XML的模式，因此适用于普通用户的检索需求。但由于XML文档中元素标签、元素内容存在同义词、多义词等现象，基于XML关键词搜索返回的检索结果集中会存在大量与用户检索语义需求不相关的文档，检索结果精度低，用户需要浪费大量时间从这些结果中浏览自己感兴趣的XML文档。使用XML文档聚类技术对搜索结果进行自动分组，便于用户只在感兴趣的少数组中查找和选取所关心的文档，大大方便了用户对信息的浏览。对web下XML文档的聚类研究目前主要是应用扩展的向量模型表示XML的特征，用JACCARD系数、CSM余弦相似度等计算XML文档之间的相似度，再利用传统的聚类算法实现聚类。

传统的聚类算法需要输入聚类个数，而对于XML检索结果的聚类预先不知道聚类个数，需要自动确定聚类的个数。谱聚类技术根据样本间的相似关系建立相似度矩阵，通过求解拉普拉斯矩阵的特征向量找出数据样本间的内在联系，其中利用k-way划分准则的多路谱聚类方法NJW由于稳定性好，成为最常用的谱聚类方法之一。对于多路谱聚类方法NJW，如果由样本构造的相似度矩阵偏离理想的相似度矩阵的扰动很小，则拉普拉斯矩阵L的前k个特征值λ_k接近1，第k+1个特征值λ_k+1远远偏离1，或是λ_k+1与λ_k之间的差值最大，此时可以自动确定聚类个数为k，直接选择前k个特征值对应的特征向量进行求解，可以得到准确的划分结果。

在实际情况下，由于web上XML文档表示的任意性及XML文档中元素标签存在同义词等现象，使得两篇隐含相似的XML文档d1和d2根据已有的特征向量表示法和相似度计算方法计算出的相似度很小或为0，影响了多路谱聚类方法中相似度矩阵的真实性，从而影响了聚类个数的正确性和聚类结果的准确合理性。

发明内容

针对上述背景技术中提到Web数据管理中XML检索存在的检索精度低的不足，本发明提出了一种基于近邻传播的XML文档谱聚类方法。

本发明的技术方案是，一种基于近邻传播的XML文档谱聚类方法，其特征是该方法包括以下步骤：

步骤1：将XML文档用XML路径构成的特征向量表示；

步骤2：计算特征向量两两之间的初始相似度，得到初始相似度矩阵W，进而确定初始近邻关系矩阵N；

步骤3：用近邻传播算法修正特征向量两两之间的相似度，得到相似度矩阵A；

步骤4：根据相似度矩阵A，应用第一指定方法确定XML文档的聚类个数及聚类结果。

所述特征向量两两之间的初始相似度的计算公式为：

sim(di,dj)=||di∩dj||||di∪dj||]]>