[发明专利]改进的搜索引擎有效
申请号: | 201410593426.2 | 申请日: | 2009-03-12 |
公开(公告)号: | CN104361038B | 公开(公告)日: | 2018-06-05 |
发明(设计)人: | 西蒙·伊恩·贝恩 | 申请(专利权)人: | 商业合伙人有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 余朦;王艳春 |
地址: | 英国*** | 国省代码: | 英国;GB |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索查询 搜索请求 处理装置 搜索引擎 搜索串 搜索词 输出装置 输入装置 子集 引擎 改进 制定 输出 | ||
一种用于生成改进的搜索查询的搜索引擎,该引擎包括:用于接收搜索请求的输入装置,所述搜索请求包括N个搜索词;处理装置,被设置为根据所接收的搜索请求制定出搜索查询;输出装置,被设置为输出所述搜索查询,其中,所述处理装置被设置为通过生成多个搜索串来制定出所述搜索查询,每个搜索串包括所述N个搜索词的子集的不同组合。
本申请为题为“改进的搜索引擎”的中国专利申请的分案申请,该中国专利申请的申请号为200980117385.7,申请日为2009年3月 12日。
技术领域
本发明涉及改进的搜索引擎。更具体地,本发明涉及用于创建从文件索引或远程数据源检索搜索查询的改进的搜索引擎,本发明还涉及用于从接收到的搜索结果中去除重复条目的改进的重复数据删除处理。
背景技术
搜索引擎是信息检索系统,其允许计算机系统的用户指定与感兴趣的项相关的标准,即,“搜索词”,并使搜索引擎找到匹配的项。在文本搜索引擎如谷歌中,搜索查询通常表示为一组词汇。
为了加快搜索进程,搜索引擎通常会在被称为索引的过程中预先收集关于项组的元数据。索引通常需要较小的计算机存储量,并提供使搜索引擎计算项目相关性的基础。
桌面搜索是搜索用户的硬盘驱动器内容而不是互联网的搜索工具的名称。这种工具可能找到包括网页浏览器历史、电子邮件档案、文本文件、声音文件等的信息。这种搜索工具可能非常快,但可能不搜索整个硬盘驱动器。例如,只搜索操作系统的特定应用程序(例如微软文件、文件夹),而可能不包括电子邮件或联系人数据库中包含的信息。
由于大量的公司数据可被存储在非结构化数据中(例如,用户创建的目录结构),因此桌面搜索引擎工作能够在计算机的所有区域内搜索是很重要的。
桌面搜索引擎建立和维护索引数据库以优化搜索性能。当计算机处于空闲状态时进行索引,搜索引擎一般收集与文件名/目录名、例如标题或作者等元数据、以及所支持的数据项/文件的内容相关的信息。桌面搜索工具的实例是由微软发布的用于Windows操作平台的编制索引的桌面搜索平台“Windows Search”。
网络搜索引擎提供搜索互联网上的信息的接口。网络搜索引擎通过存储与大量网页相关的信息而运行,这些信息由跟踪其所见的每个链接的自动的网页浏览器网络爬虫检索。然后,每页的内容被编制索引并存储在以后查询所使用的索引数据库中。当用户例如通过使用关键词在搜索引擎中键入查询时,网络搜索引擎检查其索引并根据其标准提供最匹配网页的列表。大多数搜索引擎都支持布尔运算符“AND (与)”、“OR(或)”、“NOT(非)”以进一步指定搜索,一些引擎提供允许用户指定关键词之间的距离的近似搜索。
鉴于目前互联网的规模和发展速度,初始搜索查询是相关的、以便返回相关的搜索结果是重要的。搜索引擎的效用还取决于返回的结果集的相关性,目前的搜索引擎的一个主要问题是结果集包含重复搜索结果的趋势。
目前通过哈希算法处理搜索结果的重复数据删除,其中由哈希算法处理每个数据块,从而生成存储在索引中的唯一编号。当一个数据块接收到哈希数时,将这个数与其他现有的哈希数的索引进行比较。如果哈希数已经存在于索引中,则该数据块被认为是重复的并不被存储。否则,将新的哈希数添加到索引并存储新数据。然而,在某些情况下,哈希算法可能为两个不同的数据块生成相同的哈希数。当这样的哈希冲突发生时,系统将不会存储新的数据,因为系统认为其哈希数已经存在于数据索引中。这种误报可导致数据丢失。还应注意的是哈希算法是复杂的。
搜索引擎的已知的另一个缺点是其可搜索的数据源的类型限制。传统地,搜索引擎对非结构化数据源编制索引并进行搜索。因此,被约束在如数据库的结构化数据存储中的大量数据不能由传统的搜索引擎访问。如果结构化数据被单独编制索引,则该索引可提供给搜索引擎,但是对于已经在其自身结构内的编入索引的数据,这会产生进一步的数据存储。
因此,本发明的目的是提供一种搜索引擎,该搜索引擎可克服或本质上缓和现有技术的上述问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于商业合伙人有限公司,未经商业合伙人有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410593426.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用户兴趣发现方法和装置
- 下一篇:检测数据库篡改行为的方法及装置