[发明专利]用于量化文本表达相似性的自动的、基于计算机的相似性计算系统无效
申请号: | 200680048441.2 | 申请日: | 2006-10-26 |
公开(公告)号: | CN101361066A | 公开(公告)日: | 2009-02-04 |
发明(设计)人: | 陈里波;乌尔里希·蒂尔;彼得·范克豪泽;托马斯·坎普斯 | 申请(专利权)人: | 弗兰霍菲尔运输应用研究公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 李春晖;李德山 |
地址: | 德国*** | 国省代码: | 德国;DE |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及用于自动的、基于计算机的文本表达的相似性加权的设备和方法。本发明的系统或方法包括文档数据库单元(1)、候选表达存储单元(2)、相似性权重值计算单元(3),且特征在于,可以基于相似度occ_con(t1,t2)计算各表达对的相似性权重值agw(t1,t2),其中,相似度occ_con(t1,t2)考虑到一对表达的两个表达在若干文本片段的同一个文本片段内使用的总频率,以及所述若干文本片段中不同上下文表达的总数。 | ||
搜索关键词: | 用于 量化 文本 表达 相似性 自动 基于 计算机 计算 系统 | ||
【主权项】:
1.一种自动的、基于计算机的相似性计算系统,用于计算表达对的相似性权重值,其中相似性权重值将表达对的两个表达的相似性量化,所述系统包括:文档数据库单元(1),其中或在其上能够以数字化的形式存储和/或存储有包括至少一个文本文档的文本文档汇集,候选表达存储单元(2),其中能够存储和/或存储有包括若干表达的候选表达ti的集合,其中每个表达ti出现在所述汇集的至少一个文本文档中,以及相似性权重值计算单元(3),利用所述相似性权重值计算单元(3),能从所述候选表达的集合中选择至少一对候选表达t1和t2,并且利用所述相似性权重值计算单元(3),能针对所述至少一对选择的表达计算相似性权重值agw(t1,t2),其特征在于,所述相似性权重值agw(t1,t2)能基于相似性度量|occ_con(t1,t2)|计算,相似性度量|occ_con(t1,t2)|考虑到所述表达对的两个表达t1和t2在能从所述文本文档的汇集中选择出的或者已选择出的文本片段的集合中在同一个文本片段内共同出现的总频率,以及该文本片段的集合中不同上下文表达的总数,其中上下文表达是在该文本片段的集合中与表达t1一起出现在至少一个文本片段中并且与表达t2一起出现在至少一个文本片段中的表达,且上下文表达既不与t1对应,也不与t2对应。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于弗兰霍菲尔运输应用研究公司,未经弗兰霍菲尔运输应用研究公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200680048441.2/,转载请声明来源钻瓜专利网。