[发明专利]文档检索方法和装置有效
申请号: | 201010621819.1 | 申请日: | 2010-12-27 |
公开(公告)号: | CN102567420A | 公开(公告)日: | 2012-07-11 |
发明(设计)人: | 童征宇;徐剑波 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 检索 方法 装置 | ||
技术领域
本发明涉及计算机信息处理领域,尤其涉及一种文档检索方法和装置。
背景技术
全文检索是指全文检索系统通过扫描文档中的每一个词,对每一个词建立一个索引项,指明该词在文档中出现的次数和位置,当用户提交检索请求时,全文检索系统就根据事先建立的索引文件进行查找,将查找的结果按照某种排序方式返回给用户的检索方式。实际应用中,全文检索系统处理的一个文档可能包含多个字段,如标题、作者、正文等。
具体的,在用户提交检索请求后,全文检索系统分析确定检索请求中的检索关键词包含的检索分词,检索分词是指对检索关键词进行字符划分后形成的分词,具体如何将检索关键词进行字符划分,根据不同的算法具有不同的划分方式,例如,可以将检索关键词中的每个字符划分为一个检索分词,也可以将检索关键词中的每两个字符划分为一个检索分词,等等;然后,在索引文件中查找包含所有检索分词的文档,并将该文档的信息作为检索结果提供给用户。在短语检索即检索关键词中包含多个检索分词的情况下,在查找包含所有检索分词的文档后,还需要进一步对该文档中的多个检索分词的位置关系进行匹配,以确定该多个检索分词的位置关系是否与检索请求中包含的多个检索分词的位置关系一致,若匹配一致,则将该文档的信息作为检索结果提供给用户,否则,不将该文档作为检索结果。例如,检索关键词中包含的检索分词包括“分词”和“规则”,并且这两个检索分词的位置关系为相邻,即这两个检索分词之间不包含其它字符,在查找到包含“分词”和“规则”的文档后,对该文档中“分词”和“规则”的位置关系进行匹配,若该文档中“分词”和“规则”相邻,即该文档中包含“分词规则”,则将该文档的信息作为检索结果提供给用户,否则,不将该文档作为检索结果。
在查找得到多个检索结果后,需要将多个检索结果按照一定规则进行排序,最后按照排序顺序将多个检索结果提供给用户。对于各种全文检索系统,检索结果的排序是否符合用户的需求是评价其优劣的关键因素。目前,全文检索系统普遍使用向量空间模型对检索结果进行排序,具体的,该模型根据词频(Team Frequency,TF)/倒排文档频率(Invert Document Frequency,IDF),计算检索分词在文档中的量化权重值,根据计算得到的每个文档的量化权重值对各文档进行排序。TF是指一个检索分词在文档中出现的频率,它描述该检索分词在一篇特定文档中的重要性;IDF是倒排文档频率,它描述的是检索分词在所有文档中出现的频率,即该检索分词的普遍重要性,如“我”,“什么”这些词几乎在所有的文档中都会出现,所以这些词即使在一篇特定的文档中出现的频率很高,也不是很重要。总的来说就是,一篇特定文档的优先级,与检索分词的TF成正比,与IDF成反比。
在实现本发明的过程中,发明人发现现有技术中存在以下技术问题:
现有的检索结果排序方式中,根据检索分词的TF和IDF对检索结果进行排序,如何根据检索分词出现在文档中的位置以及文档的数据长度对检索结果进行排序,目前还没有具体的实现方案。
发明内容
本发明实施例提供一种文档检索方法和装置,用于解决无法根据检索分词出现在文档中的位置以及文档的数据长度对检索结果进行排序的问题。
一种文档检索方法,该方法包括:
检索到包含检索关键词中的全部检索分词的多个文档后,根据所述检索关键词中的检索分词在检索到的多个文档中的位置和检索到的多个文档的数据长度,对检索到的多个文档进行排序;
按照对检索到的多个文档进行排序的排序结果,将检索到的多个文档作为检索结果返回。
一种文档检索装置,该装置包括:
检索单元,用于检索包含检索关键词中的全部检索分词的多个文档;
排序单元,用于根据所述检索关键词中的检索分词在检索到的多个文档中的位置和检索到的多个文档的数据长度,对检索到的多个文档进行排序;
结果返回单元,用于按照对检索到的多个文档进行排序的排序结果,将检索到的多个文档作为检索结果返回。
本发明实施例提供的方案中,在检索到包含检索关键词中的全部检索分词的多个文档后,根据所述检索关键词中的检索分词在检索到的多个文档中的位置和检索到的多个文档的数据长度,对检索到的多个文档进行排序,并按照对检索到的多个文档进行排序的排序结果,将检索到的多个文档作为检索结果返回。可见,采用本发明,能够根据检索分词出现在文档中的位置以及文档的数据长度对检索结果进行排序,进而使得检索文档的排序结果更加精确,更好的满足用户需求。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司,未经北大方正集团有限公司;北京方正阿帕比技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010621819.1/2.html,转载请声明来源钻瓜专利网。