[发明专利]一种文档相关度计算系统和方法有效
申请号: | 200610036094.3 | 申请日: | 2006-06-19 |
公开(公告)号: | CN101079025A | 公开(公告)日: | 2007-11-28 |
发明(设计)人: | 丁江伟 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 深圳市顺天达专利商标代理有限公司 | 代理人: | 郭伟刚;蔡晓红 |
地址: | 518057广东省深圳市高新科*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 相关 计算 系统 方法 | ||
1.一种文档相关度计算系统,包括顺序相连的文档预处理模块和分词模块,所述文档预处理模块的输入为至少一篇待分析文档,所述分词模块的输出为对应所述至少一篇文档的第一词汇表;所述分词模块还具有对切分后的词汇进行词性标注的功能;其特征在于,还包括:
在所述分词模块与义元处理模块之间还串联的分词后处理模块,所述分词后处理模块用于根据第一词汇表中词汇的词性,剔除其中的停用词、虚词,得到第二词汇表;
义元处理模块,用于对所述第二词汇表中的词汇进行义元标注,形成第三词汇表,确定所述第三词汇表中多义词所对应的多个义元的权重或为多义词确定唯一义元以得到第一义元表,对所述第一义元表中的所有义元计算权重,得到按权重排序的主题语义向量;
文档相关度计算模块,其与所述义元处理模块相连,用于对至少两个主题语义向量进行相关度计算。
2.根据权利要求1所述的一种文档相关度计算系统,其特征在于:还包括主题语义向量库,其输入端与所述义元处理模块相连,输出端与所述文档相关度计算模块相连,用于存储所述义元处理模块输出的主题语义向量;
所述文档相关度计算模块用于对至少两个主题语义向量进行相关度计算;所述主题语义向量从所述义元处理模块获得,或从所述主题语义向量库中获得,或分别从所述义元处理模块和主题语义向量库中获得。
3.根据权利要求1所述的一种文档相关度计算系统,其特征在于:
所述文档预处理模块用于将输入的、不同格式的文档转换为标准格式,并提取文档正文;
分词模块用于对所述文档预处理模块的输出进行分词,得到所述第一词汇表。
4.根据权利要求3所述的一种文档相关度计算系统,其特征在于,所述义元处理模块包括:
义元标注模块,其用于使用义元词典对所述第二词汇表中的词汇进行义元标注,形成第三词汇表;
词义消歧模块,其用于确定所述第三词汇表中多义词所对应的多个义元的权重,或为多义词确定唯一义元,得到第一义元表;
主题语义向量计算模块,其用于对所述第一义元表中的所有义元计算权重,得到按权重排序的主题语义向量。
5.一种文档相关度计算方法,其特征在于,包括以下步骤:
(a),由文档预处理模块将输入的、不同格式的文档转换为标准格式,并提取文档正文内容;
(b),由分词模块对所述文档预处理模块的输出进行分词并对切分后的词汇进行词性标注,得到第一词汇表;由分词后处理模块对所述第一词汇表的词汇进行剔除其中的停用词、虚词处理得到第二词汇表;
(c),由义元处理模块对所述第二词汇表中的词汇进行义元标注,形成第三词汇表,并对所述第三词汇表中的词汇进行处理,确定其中多义词所对应的多个义元的权重或为多义词确定唯一义元以得到第一义元表,对所述第一义元表中的所有义元计算权重,得到按权重排序的主题语义向量;
(d),由文档相关度计算模块对待分析的至少两篇文档的主题语义向量进行计算,得到所述至少两篇文档的相关度。
6.根据权利要求5所述的一种文档相关度计算方法,其特征在于:步骤(d)中,所述至少两篇文档的主题语义向量从所述义元处理模块获得,或从与所述文档相关度计算模块连接的主题语义向量库中获得,或分别从所述义元处理模块和主题语义向量库中获得。
7.根据权利要求5所述的一种文档相关度计算方法,其特征在于,步骤(a)进一步包括:所述文档预处理模块获取对应文档类别信息和标题信息。
8.根据权利要求5所述的一种文档相关度计算方法,其特征在于,步骤(c)中,获得主题语义向量的方法是:
(c1),由义元标注模块使用义元词典对所述第二词汇表中的词汇进行义元标注,形成第三词汇表;
(c2),由词义消歧模块对所述第三词汇表中标注过义元的词汇进行处理,确定其中多义词所对应的多个义元的权重,或为多义词确定唯一义元,得到第一义元表;
(c3),由主题语义向量计算模块对所述第一义元表中的所有义元计算权重,得到按权重排序的主题语义向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610036094.3/1.html,转载请声明来源钻瓜专利网。