[发明专利]用于量化文本表达相似性的自动的、基于计算机的相似性计算系统无效
申请号: | 200680048441.2 | 申请日: | 2006-10-26 |
公开(公告)号: | CN101361066A | 公开(公告)日: | 2009-02-04 |
发明(设计)人: | 陈里波;乌尔里希·蒂尔;彼得·范克豪泽;托马斯·坎普斯 | 申请(专利权)人: | 弗兰霍菲尔运输应用研究公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 李春晖;李德山 |
地址: | 德国*** | 国省代码: | 德国;DE |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 量化 文本 表达 相似性 自动 基于 计算机 计算 系统 | ||
1.一种自动的、基于计算机的相似性计算系统,用于计算表达对的相似性权重值,其中相似性权重值将表达对的两个表达的相似性量化,所述系统包括:
文档数据库单元(1),其中或在其上能够以数字化的形式存储和/或存储有包括至少一个文本文档的文本文档汇集,
候选表达存储单元(2),其中能够存储和/或存储有包括若干表达的候选表达ti的集合,其中每个表达ti出现在所述汇集的至少一个文本文档中,以及
相似性权重值计算单元(3),利用所述相似性权重值计算单元(3),能从所述候选表达的集合中选择至少一对候选表达t1和t2,并且利用所述相似性权重值计算单元(3),能针对所述至少一对选择的表达计算相似性权重值agw(t1,t2),
其特征在于,
所述相似性权重值agw(t1,t2)能基于相似性度量|occ_con(t1,t2)|计算,相似性度量|occ_con(t1,t2)|考虑到所述表达对的两个表达t1和t2在能从所述文本文档的汇集中选择出的或者已选择出的文本片段的集合中在同一个文本片段内共同出现的总频率,以及该文本片段的集合中不同上下文表达的总数,
其中上下文表达是在该文本片段的集合中与表达t1一起出现在至少一个文本片段中并且与表达t2一起出现在至少一个文本片段中的表达,且上下文表达既不与t1对应,也不与t2对应。
2.根据上述权利要求所述的相似性计算系统,
其特征在于,
上下文表达仅仅是在所述文本片段的集合中与两个表达t1和t2一起出现在至少一个文本片段中的那些表达。
3.根据上述权利要求中的任一项所述的相似性计算系统,
其特征在于,
所述相似性度量occ_con(t1,t2)是在所述文本片段的集合中与表达t1和t2两者一起出现在至少一个文本片段中、且与t1和t2都不对应或相等的所有那些上下文表达的总数,其中在多于一个的文本片段中以相同形式出现的上下文表达只被计数一次,使得只有不同上下文表达的数目被考虑在内。
4.根据上述权利要求中的任一项所述的相似性计算系统,
其特征在于,
能够基于在一个第一表达或多个第一表达在一个文本片段内出现的条件下关于一个第二表达或多个第二表达在该文本片段内的出现的至少一个条件概率,或者基于这样的条件概率的近似值,计算所述相似性权重值agw(t1,t2)。
5.根据上一权利要求所述的相似性计算系统,
其特征在于,
所述条件概率是两个条件概率的乘积,或这两个条件概率的两个近似值的乘积。
6.根据上一权利要求所述的相似性计算系统,
其特征在于,
所述两个条件概率中的一个将t1在文本片段内出现作为给定条件,且另一个条件概率将t2在文本片段内出现作为给定条件。
7.根据上述权利要求中的任一项所述的并根据权利要求3所述的相似性计算系统,
其特征在于,
能够基于归一化的相似性度量occ_con(t1,t2)计算所述相似性权重值agw(t1,t2),其中occ_con(t1,t2)的归一化通过所述文本片段的集合中出现t1的文本片段的总数和所述文本片段的集合中出现t2的文本片段的总数的乘积来实现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于弗兰霍菲尔运输应用研究公司,未经弗兰霍菲尔运输应用研究公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680048441.2/1.html,转载请声明来源钻瓜专利网。