[发明专利]全文查询和搜索系统及其使用方法无效
申请号: | 200580044686.3 | 申请日: | 2005-10-25 |
公开(公告)号: | CN101088082A | 公开(公告)日: | 2007-12-12 |
发明(设计)人: | 唐元华;胡前进;杨永红 | 申请(专利权)人: | 英孚威尔公司 |
主分类号: | G06F17/00 | 分类号: | G06F17/00 |
代理公司: | 上海智信专利代理有限公司 | 代理人: | 薛琦 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 全文 查询 搜索 系统 及其 使用方法 | ||
技术领域
本发明包含信息技术和软件领域,具体涉及对以文本为基础的数据库的带有评级的信息检索方法。
背景技术
传统在线的以电脑为基础的文本内容数据库的搜索方法多数以关键词为基础,即,一个数据库和与它相应的字典首先被建立。该数据库的一个索引文件是与该字典相联系的,在该字典中每个关键词的出现和它们在数据库中的位置都被记录下来。当一个查询含有输入的关键词,在数据库中含有该关键词的所有条目都被返回。在“高级搜索”类型中,一个用户也能够具体指定排除的单词,其中具体指定的单词的出现将不允许被呈现在任何的命中中。
有关以关键词为基础的搜索引擎的主要问题在于如何评级命中,如果有许多条目含有该单词。首先考虑一个单一关键词的情况。例如GOOGLE,目前的一个互联网搜索引擎,使用由其他条目所指向的那个条目的连接数量作为分类评分值(以引用或提及为基础的评级)。这样,其他条目提及该条目(条目E)的次数越多,该条目E在挑出列表的可能性越高。一个关于关键词的搜索被减少到二进制搜索首先在索引文件中定位该单词,然后定位含有该单词的数据库条目。含有该单词的所有条目完整列表以一个由引用评级的挑选方式被报告给用户。另一种方法,由GOOGLE和由YAHOO所使用,根据网页所有人之间的一个拍卖方案来评级:谁为该单词支付费用最高谁将有更高的评分值分配给它们的网页。这两种评级方法能够被分别的实现或混合使用来生成一个加权评分值。
如果多个关键词被使用于查询,上面的搜索将被执行多次,并且结果随后应用Boolean逻辑被处理过,典型地一个“联合”操作,该操作中仅两个搜索结果的交集被选出。该评级将是一个基于以下条目的加权评分值(1)一个命中中含有的命中单词数;(2)该命中的引用评级;和(3)来自命中的所有人支付的广告费数目。
现有技术的局限性
用该种搜索方法的一个额外问题是为一个或一些有限的关键词产生大量的“命中”。当一个数据库很大,或媒体变得不均,这一方法尤其麻烦。这时,传统的搜索引擎限制了数据库的内容和大小,也限制了关键词的选择。在因特网范围的网站搜索中,我们面对非常巨大的数据库,并且有着非常不均等的数据内容。这些局限应该被排除。YAHOO首先试图使用分类,对每个特定的种类施加数据内容的约束和数据库大小的限制。这种分类方法是非常劳动密集型的,并且在众多的种类和副种类间的浏览中对用户施加很多负担。
GOOGLE是通过评级每个条目的质量来解决“命中量大”的问题的。对一个网页数据库,一个条目的质量能通过连接次数(其他网页提及该地址多少次),该网站的受欢迎度(该网页有多少游客),等来计算出。对商业广告的数据库,质量可以通过支付的钱数来决定。互联网用户因而不再承受穿过多层的种类或关键词的限制的负担。使用任何关键词,google的搜索引擎返回一个由它的算法所“客观地评级”的结果列表。
现有搜索技术的局限性:
1)限制搜索单词的数量:关键词的数量非常有限(通常少于10个单词)。通常用户只能提供一些关键词。在多数场合,可能很难用少量关键词来完整地定义一件有关的主题。
2)“命中量大”的问题:即,报告许多不相关的结果。通常该搜索的结果是一个巨大的数据库条目集合,它们中多数与用户想要的主题没有关系,但它们都含有用户提供的少量的关键词。
3)“命中”的评级可能不能实现用户的意图:即,相关的信息可能在搜索结果中但被埋在列表的深处。没有好的挑选方法将最相关的结果带到结果列表的前面,导致用户很失望。
发明内容
本发明提供一个搜索引擎,用于以文本为基础的数据库。该搜索引擎包含一种算法,该算法使用一个查询来搜索、检索、以及评级出现于至少一个数据库的文本、单词、短语、信息元、或诸如此类。该搜索引擎使用以查询和命中文件之间的共有单词或信息元得出的Shannon信息值为基础的评级,以计算出的Shannon信息评分p-值为基础,或者以单词或信息元频率、共有单词或信息元的百分比本身为基础的p-值来进行评级。
本发明也提供一个以文本为基础的搜索引擎,该引擎包含一种算法,该算法包含如下步骤:1)用于将查询文件中的第一个文本与文本数据库中的第二个文本作比较的办法;2)用于识别两者之间共有的信息元的办法;并且3)用于计算累积评分值或以下各评分值的办法,包括利用信息元频率分布来衡量信息内容的重叠次数的评分,以及从共有信息元的累积Shannon信息、共有信息元的组合p-值、重叠单词的数量、和重叠单词的百分比的集合中挑选出的评分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英孚威尔公司,未经英孚威尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200580044686.3/2.html,转载请声明来源钻瓜专利网。