[发明专利]一种基于有权图来计算文本内容相似度的方法无效
申请号: | 200910078787.2 | 申请日: | 2009-03-03 |
公开(公告)号: | CN101576904A | 公开(公告)日: | 2009-11-11 |
发明(设计)人: | 杜小勇;刘红岩;何军;李佩;李直旭 | 申请(专利权)人: | 杜小勇 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 | 代理人: | 尹振启 |
地址: | 100872北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 有权 计算 文本 内容 相似 方法 | ||
技术领域
本发明涉及数据挖掘和信息检索领域,尤其是涉及一种基于有权图来计算文本内容相似度的系统和方法。
背景技术
在实际应用中,相似度计算是一个信息检索系统或协同过滤系统中不可或缺的重要一环。现今的信息检索中,文本信息检索是一个经久不衰的研究课题,其中基于文本内容的相似度计算又是其中的核心。举例来说,在一个数字图书馆中,当用户查阅某篇文献时,常常需要查看与这篇文献相关的其它文献,或者检索系统需要自动地把其它相关文献呈现给用户,其中就涉及文本内容相似度计算。在科学研究中,文本内容相似度计算是信息检索领域发展之初就十分关注的课题,因为最初的信息检索系统几乎都是文本信息检索。典型的信息检索系统有SMART系统,它在1960时期由美国Cornell大学开发。
一种典型的文本相似度应用场景,输入是一个给定的包含若干篇文档的集合,其中每篇文档中包含一定量的术语(term),输出是这些文档中两两之间的相似度值。这种场景也正是本发明所面向的应用领域。
以往的技术中,最常用的办法是将这个文档集合视为一个向量空间(Vector Space),而将其中的一篇文档视为一个向量,这样文档相似度就被转化为求对应向量夹角的余弦值。这种计算方法首先在上文提到的SMART系统中提出,然后得到了业界的认可。尽管如此,在如下一种情形中,这种方法的表现并不出色:当文档数目很多,但每篇文档的内容并不长时。原因在于,由于文档很多,所以术语(term)很多,但每篇文档的内容并不长时。原因在于,由于文档很多,所以术语(term)很多,但 每篇文档的术语数目却很少,这样造成任意两篇文档之间的交集很小,最后导致算出的结果偏小。遗憾的是,在现今World Wide Web越来越普及的潮流下,这种现象有愈演愈烈之势:网页数量往往急剧增长,而每个网页的篇幅并不是很长。正是基于这种情形,本发明提出了基于有权图的文本内容相似度计算,能够成功解决以上难题。
本发明的关键之处在于:将文档视为图中的一个节点,而如果两篇文档间共用了一次相同的术语,则认为它们之间有一条权重为1的边。显然,根据这种构图方法,最后我们能得到一个带权的无向图,然后就可以根据基于链接的相似度计算方法来计算出文档之间的相似度。
发明内容
本发明是鉴于上述技术问题而产生的。本发明的一个目的是提出一种基于有权图来计算文本内容相似度的方法。
在一个方面中,根据本发明的基于有权图来计算文本内容相似度的方法包括:A、输入需要计算其相似度的文档集合。B、构造有权图;C、根据在步骤B中所得到的有权图来计算图中任意两个节点之间的相似度。D、将文档相似度结果返回给用户。
在这个方面中,其中步骤B进一步包括:B1、对文档进行预处理;B2、统计术语;B3、构建有权图。
在这个方面中,其中步骤B1分为两个子阶段:去非术语和取词干。
在这个方面中,其中在步骤B2中主要统计两方面:一篇特定文档中包含哪些术语和这些术语出现的次数、一个特定术语在哪些文档中出现和出现的频度。
在这个方面中,其中在步骤B3中如果两篇文档间共用了一次相同的术语,则认为它们之间的边权重为1,权重可以累加,即最后得到一 个有权图。
在这个方面中,其中步骤C进一步包括:C1、构造转移矩阵;C2、对转移矩阵进行一次迭代计算以得到该次迭代的相似度;C3、对这次迭代所得到的相似度与上一次迭代得到的相似度进行比较,如果已经收敛,则迭代终止,否则返回步骤C2进行下一次迭代。
在这个方面中,其中在步骤C1中把有权图用邻接矩阵表示,然后让每行的权重之和为1。
在另一个方面中,根据本发明的基于有权图来计算文本内容相似度的系统包括:输入单元,用于输入需要计算其相似度的文档集合;构造单元,用于构造有权图;计算单元,用于根据在构造单元中所得到的有权图来计算图中任意两个节点之间的相似度;输出单元,用于将相似度结果返回给用户。
在这个方面中,其中构造单元进一步包括:预处理模块,用于对文档进行预处理;统计模块,用于对术语进行统计;有权图构建模块,用于构建有权图。
在这个方面中,其中预处理模块对文档进行预处理分为两个子阶段:去非术语和取词干。
在这个方面中,其中统计模块主要统计两方面:一篇特定文档中包含哪些术语和这些术语出现的次数、一个特定术语在哪些文档中出现和出现的频度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杜小勇,未经杜小勇许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910078787.2/2.html,转载请声明来源钻瓜专利网。