[发明专利]重复文档检测及表示功能有效
申请号: | 200580035487.6 | 申请日: | 2005-08-23 |
公开(公告)号: | CN101076800A | 公开(公告)日: | 2007-11-21 |
发明(设计)人: | J·G·康拉德;J·R·S·克劳森;J·林 | 申请(专利权)人: | 汤姆森环球资源公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国专利代理(香港)有限公司 | 代理人: | 曾祥夌;陈景峻 |
地址: | 瑞士*** | 国省代码: | 瑞士;CH |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 很多公司提供了使用户进行计算机化的文档检索的在线检索设备。不幸的是,这些检索通常提供包括重复的文档,即彼此完全或实质上相同的文档的结果。这个问题在例如检索新闻报道时尤其令人烦恼。此外,重复文档混杂在搜索结果中,让用户去人工应付对它们进行复杂的标识和/或筛选。本发明提供了有助于在搜索结果中重复文档的标识和/或分组的系统、方法和软件。一示范性系统包括基于长度、时间和/或内容分量产生文档签名的签名生成模块;使用文档签名来标识“精确的”或“模糊的”重复文档的实时复本检测模块;以及控制搜索结果中的重复文档如何被表示或抑制的用户界面或表示模块。 | ||
搜索关键词: | 重复 文档 检测 表示 功能 | ||
【主权项】:
1.一种信息检索系统,包括:一个或多个数据库;一个或多个协助客户通过网络访问数据库的服务器,各服务器包含:查询定义部件,协助用户提交查询并协助用户选择与包含一个或多个其它搜索结果文档的重复内容的搜索结果文档之识别相关联的选项;以及复本判定部件,用于判定一个或多个搜索结果文档是否包括一个或多个其它搜索结果文档内容中的重复内容,所述复本判定部件包含:用于比较第一和第二文档各自的第一和第二特征向量的部件,各特征向量包含多个从各自文档中选择的特征的等长二进制表示,各二进制表示基于一个或多个数据库的逆文本频率指数(idf)表内的特征中的一个对应特征的顺序位置;以及用于基于第一和第二特征向量的比较结果来判定第一和第二文档是否为复本的部件,以及用于基于选定的选项控制搜索结果文档的显示的部件,至少一个显示结果被指示为包含结果内一个或多个其它文档内容中的重复内容。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汤姆森环球资源公司,未经汤姆森环球资源公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200580035487.6/,转载请声明来源钻瓜专利网。
- 上一篇:管理洗衣房机器的操作的方法及其机器
- 下一篇:实时自动对焦的方法