[发明专利]一种基于有权图来计算文本内容相似度的方法无效
申请号: | 200910078787.2 | 申请日: | 2009-03-03 |
公开(公告)号: | CN101576904A | 公开(公告)日: | 2009-11-11 |
发明(设计)人: | 杜小勇;刘红岩;何军;李佩;李直旭 | 申请(专利权)人: | 杜小勇 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 | 代理人: | 尹振启 |
地址: | 100872北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 有权 计算 文本 内容 相似 方法 | ||
1.一种基于有权图来计算文本内容相似度的方法,包括步骤:
A、输入需要计算其相似度的文档集合;
B、构造有权图;
C、根据在步骤B中所得到的有权图来计算图中任意两个节点之间的相似度;
D、将文档相似度结果返回给用户;
其中步骤C进一步包括:
C1、构造转移矩阵;
C2、基于转移矩阵,让初始相似度矩阵为单位矩阵,进行一次迭代计算以得到该次迭代的相似度;
C3、对这次迭代所得到的相似度与上一次迭代得到的相似度进行比较,如果已经收敛,则迭代终止,否则返回步骤C2进行下一次迭代。
2.根据权利要求1的方法,其中步骤B进一步包括:
B1、对文档进行预处理;
B2、统计术语;
B3、构建有权图。
3.根据权利要求2的方法,其中步骤B1分为两个子阶段:去非术语和取词干。
4.根据权利要求3的方法,其中在步骤B2中统计两方面:一篇特定文档中包含哪些术语和这些术语出现的次数、一个特定术语在哪些文档中出现和出现的频度。
5.根据权利要求4的方法,其中在步骤B3中如果两篇文档间共用了一次相同的术语,则认为它们之间的边权重为1,权重可以累加,即最后得到一个有权图。
6.根据权利要求1的方法,其中在步骤C1中把有权图用邻接矩阵表示,然后让每行的权重之和为1。
7.一种基于有权图来计算文本内容相似度的系统,包括:
输入单元,用于输入需要计算其相似度的文档集合;
构造单元,用于构造有权图;
计算单元,用于根据在构造单元中所得到的有权图来计算图中任意两个节点之间的相似度;
输出单元,用于将相似度结果返回给用户;
其中计算单元进一步包括:
转移矩阵构造模块,用于构造转移矩阵;
迭代计算模块,用于对转移矩阵进行一次迭代计算以得到该次迭代的相似度;
判断模块,对这次迭代所得到的相似度与上一次迭代得到的相似度进行比较,如果已经收敛,则迭代终止,否则将这次迭代结果输入到迭代计算模块以进行下一次迭代。
8.根据权利要求7的系统,其中构造单元进一步包括:
预处理模块,用于对文档进行预处理;
统计模块,用于对术语进行统计;
有权图构建模块,用于构建有权图。
9.根据权利要求8的系统,其中预处理模块对文档进行预处理分为两个子阶段:去非术语和取词干。
10.根据权利要求9的系统,其中统计模块统计两方面:一篇特定文档中包含哪些术语和这些术语出现的次数、一个特定术语在哪些文档中出现和出现的频度。
11.根据权利要求10的系统,其中在有权图构建模块中如果两篇文档间共用了一次相同的术语,则认为它们之间的边权重为1,权重可以累加,即最后得到一个有权图。
12.根据权利要求7的系统,其中转移矩阵构造模块把有权图用邻接矩阵表示并且让每行的权重之和为1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杜小勇,未经杜小勇许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910078787.2/1.html,转载请声明来源钻瓜专利网。