[发明专利]信息检索系统中基于短语的搜索有效
申请号: | 201110200374.4 | 申请日: | 2005-07-26 |
公开(公告)号: | CN102226901A | 公开(公告)日: | 2011-10-26 |
发明(设计)人: | 安娜·林恩·帕特森 | 申请(专利权)人: | 咕果公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京律盟知识产权代理有限责任公司 11287 | 代理人: | 王允方 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息 检索系统 基于 短语 搜索 | ||
分案申请的相关信息
本申请为发明名称为“信息检索系统中基于短语的搜索”的原中国发明专利申请的分案申请。原申请的申请号为200510085371.5;原申请的申请日为2005年7月26日;原发明专利申请案的优先权日为2004年7月26日。
相关申请的交叉参考
2004年7月26日申请的申请案第10/900,021号“Phrase Identification in an Information Retrieval System”;
2004年7月26日申请的申请案第10/900,055号“Phrase-Based Indexing in an Information Retrieval System”;
2004年7月26日申请的申请案第10/900,039号“Phrase-Based Personalization of Searches in an Information Retrieval System”;
2004年7月26日申请的申请案第10/900,259号“Automatic Taxonomy Generation in Search Results Using Phrases”;
2004年7月26日申请的申请案第10/900,075号“Phrase-Based Generation of Document Descriptions”;及
2004年7月26日申请的申请案第10/900,012号“Phrase-Based Detection of Duplicate Documents in an Information Retrieval System”;
所有这些申请案被共同拥有并且以引用的方式并入本文中。
技术领域
本发明涉及一种用于对诸如互联网(Internet)的大规模语料库中的文献编制索引、搜索与分类的信息检索系统。
背景技术
信息检索系统通常称作搜索引擎,如今它们是一种用于在诸如互联网的大规模、多样化并不断增长的语料库中寻找信息的基本工具。一般来说,搜索引擎创建索引以使文献(或“页”)与各文献中存在的个别字相关。响应一含有多个查询项的查询来检索文献,此通常是基于在文献中存在一定数量的查询项而实现的。根据诸如查询项出现的频率、主域、链接分析等其它统计度量来对检索到的文献分等级。然后,通常按分等级后的次序将检索到的文献呈现给用户,而不进行任何其他分组或强制分级。在某些状况下,仅呈现文献文本的选定部分以便使用户能够粗略了解所述文献的内容。
查询项的直接“布尔(Boolean)”匹配具有多个熟知的限制,并且尤其无法识别那些不具有查询项但具有相关字的文献。举例来说,在典型的布尔系统中,搜索“Australian Shepherds(澳大利亚牧羊犬)”时将不会返回不具有确切查询项的关于其它herding dogs(牧羊犬)(例如,Border Collies(博得牧羊犬))的文献。反而,所述系统通常可能同时检索到关于Australia(澳大利亚)(并且与dogs(狗)无关)的文献与关于“shepherds(牧羊犬)”的文献,并且将这些文献排在较高等级。
这里的问题是传统的系统是根据个别项而不是概念来编制文献索引。概念通常以短语表示,如“Australian Shepherd(澳大利亚牧羊犬)”、“President of the United States(美国总统)”或者“Sundance Film Festival(圣丹斯电影节)”等。某些现有系统最多是就预定且非常有限的“已知”短语集合来编制文献索引,这些“已知”短语一般是由人工操作员选择的。因为察觉到识别由(比如)三个、四个或五个或更多个字组成的所有可能的短语需要计算与存储器,所以一般会避免对短语编制索引。举例来说,如果假定任意五个字可构成一个短语并且一个大的语料库将具有至少200,000个唯一项,那么将存在约3.2*1026个可能短语,此明显超出任何现有系统能够存储于存储器中的量或者其可另外编程操纵的量。另一个问题是短语不断输入并会超出其在词典中的用法,此比发明新的个别字频繁得多。新短语总是从诸如技术、艺术、世界事件与法律等来源中产生。其它短语将随时间降低使用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于咕果公司,未经咕果公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110200374.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:偏光眼镜、偏光滤波器、投影机、立体影像系统
- 下一篇:往复式滚动混磨机装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置