[发明专利]用于量化文本表达相似性的自动的、基于计算机的相似性计算系统无效

申请号：	200680048441.2	申请日：	2006-10-26
公开（公告）号：	CN101361066A	公开（公告）日：	2009-02-04
发明（设计）人：	陈里波;乌尔里希·蒂尔;彼得·范克豪泽;托马斯·坎普斯	申请（专利权）人：	弗兰霍菲尔运输应用研究公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京集佳知识产权代理有限公司	代理人：	李春晖;李德山
地址：	德国***	国省代码：	德国;DE
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于量化文本表达相似性自动基于计算机计算系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种自动的、基于计算机的相似性计算系统，用于计算表达对的相似性权重值，其中相似性权重值将表达对的两个表达的相似性量化，所述系统包括：

文档数据库单元(1)，其中或在其上能够以数字化的形式存储和/或存储有包括至少一个文本文档的文本文档汇集，

候选表达存储单元(2)，其中能够存储和/或存储有包括若干表达的候选表达t_i的集合，其中每个表达t_i出现在所述汇集的至少一个文本文档中，以及

相似性权重值计算单元(3)，利用所述相似性权重值计算单元(3)，能从所述候选表达的集合中选择至少一对候选表达t₁和t₂，并且利用所述相似性权重值计算单元(3)，能针对所述至少一对选择的表达计算相似性权重值agw(t₁，t₂)，

其特征在于，

所述相似性权重值agw(t₁，t₂)能基于相似性度量|occ_con(t₁，t₂)|计算，相似性度量|occ_con(t₁，t₂)|考虑到所述表达对的两个表达t₁和t₂在能从所述文本文档的汇集中选择出的或者已选择出的文本片段的集合中在同一个文本片段内共同出现的总频率，以及该文本片段的集合中不同上下文表达的总数，

其中上下文表达是在该文本片段的集合中与表达t₁一起出现在至少一个文本片段中并且与表达t₂一起出现在至少一个文本片段中的表达，且上下文表达既不与t₁对应，也不与t₂对应。

2.根据上述权利要求所述的相似性计算系统，

其特征在于，

上下文表达仅仅是在所述文本片段的集合中与两个表达t₁和t₂一起出现在至少一个文本片段中的那些表达。

3.根据上述权利要求中的任一项所述的相似性计算系统，

其特征在于，

所述相似性度量occ_con(t₁，t₂)是在所述文本片段的集合中与表达t₁和t₂两者一起出现在至少一个文本片段中、且与t₁和t₂都不对应或相等的所有那些上下文表达的总数，其中在多于一个的文本片段中以相同形式出现的上下文表达只被计数一次，使得只有不同上下文表达的数目被考虑在内。

4.根据上述权利要求中的任一项所述的相似性计算系统，

其特征在于，

能够基于在一个第一表达或多个第一表达在一个文本片段内出现的条件下关于一个第二表达或多个第二表达在该文本片段内的出现的至少一个条件概率，或者基于这样的条件概率的近似值，计算所述相似性权重值agw(t₁，t₂)。

5.根据上一权利要求所述的相似性计算系统，

其特征在于，