[发明专利]倒排索引建立方法无效
申请号: | 200910260705.6 | 申请日: | 2009-12-29 |
公开(公告)号: | CN102110123A | 公开(公告)日: | 2011-06-29 |
发明(设计)人: | 黄九鸣;周斌;贾焰;邹鹏;吴泉源;杨树强;韩伟红;李爱平;梁政;单大甫;蒋子海;崔凯;韩毅 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 索引 建立 方法 | ||
技术领域
本发明涉及信息检索领域,特别涉及一种倒排索引建立方法。
背景技术
随着计算机、互联网的发展,人类的知识越来越多地以数字化形式存储。如何在海量的数字化文本中,快速、准确的检索人们想要的知识成为急迫的需求。1945年,Vannevar Bush的论文《就像我们可能会想的......》第一次提出了设计自动的、在大规模的存储数据中进行查找的机器的构想。这被认为是现代信息检索技术的开山之作。进入50年代后,研究者们开始为逐步的实现这些设想而努力。50年代中期,在利用电脑对文本数据进行检索的研究上,研究者取得了一些成果。其中最有代表性的是Luhn在IBM公司的工作(请见参考文献1“H.P.Luhn,“A statistical approach tomechanized encoding and searching of literary information”,IBM Journal ofResearch and Development,vol.1(4),pp.309-317,1957”),他提出了利用词对文档构建索引并利用检索使用的关键词与文档中词的匹配程度进行检索的方法,这种方法就是目前常用的倒排索引技术的雏形。
所谓的倒排索引(Inverted index)也常被称为反向索引、置入档案或反向档案,是一种常用的索引方法,它被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。在现有技术中一种已知的实现方式中,倒排索引可以被看成一个链表数组,每个链表的表头包含关键词,其后续单元则包括所有包含这个关键词的文档标号以及一些其他信息。这些信息可以是文档中该词的频率,也可以是文档中该词的位置等信息。这样在检索时可以直接利用各个链表表头的关键词来查找包含这些关键词的文档,而无需对所有的文档逐个进行基于关键词的检索,有利于提高检索的效率。Google等知名的搜索引擎公司多数都采用了倒排索引方法来实现信息的检索。
现有技术中,倒排索引的建立过程通常包含以下几个步骤:
步骤1)、文档解析。将不同的文档存储格式转换为统一的字符串形式。现在的文档格式特别多,如PDF格式、HTML格式、TXT格式、DOC格式等,文档解析步骤的任务是读取文档文件,转换为统一的字符串格式。
步骤2)、关键词提取。这个步骤主要完成包括中文分词、去除停用词、大小写转换、时态还原等操作。
步骤3)、建立、存储倒排索引。将关键词、文章号、关键词的出现位置加入到前面所述的倒排索引数据结构中,将倒排索引数据结构存储到数据库或文件等持久化设备中。
现有技术中的倒排索引为根据词找到文档提供了快速检索途径,但是它的匹配过程是精确匹配,只有包含检索词的文档才能被搜索到,这在很多场合往往是不够的。例如,在企业和政府部门的文本信息搜索应用中,经常会有类似这样的需求:输入某个人的姓名,不仅要找到包含该人名的所有文档,还希望知道和这个人相关的电话号码、邮箱等信息。显然,在搜索引擎上输入“电话号码”这个词,只能找到含有“电话号码”这个词的所有文档,而找不到只含有用数字表示的电话号码却没出现“电话号码”这个词的文档。
本领域技术人员虽然已经认识到了倒排索引技术所存在的上述缺陷,但所提出的解决方案通常具有实现效率很低的缺陷。如现有技术中对前述问题的一种典型解决方法是:找到包含该人名的所有文档后,再通过信息抽取系统对搜索到的文档的全文进行解析,抽取出所需的电话号码、邮箱等。这个方法最大的问题是每次搜索都要再对被搜索到的文档进行一次信息抽取,当文档数量巨大,搜索次数很多时,时间开销显然让人无法接受。
发明内容
本发明的目的是克服现有技术无法通过倒排索引方法直接查找某一类型数据的缺陷,从而提供一种新的倒排索引创建方法。
为了实现上述目的,本发明提供了一种倒排索引建立方法,所述倒排索引包括抽取结果表,所述抽取结果表包括文档号以及与该文档号相对应的抽取结果记录,所述抽取结果记录包括有类型、内容以及位置信息项;该方法包括:
步骤1)、对由字符串格式表示的文档做分词操作,从所述分词操作结果中取出一个词;
步骤2)、判断所取出的词是否属于某一类型的数据,如果属于,则执行下一步,否则,执行步骤4);
步骤3)、将所提取出来的词的内容、在所在文档中的位置以及判断该词是否属于某一类型的数据时所采用的检测方法分别填入所述抽取结果记录中的内容、位置以及类型信息项,创建抽取结果表,然后执行下一步;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910260705.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电熔大碹砖整体组立装置
- 下一篇:一种污泥混合设备