[发明专利]一种语料库之间的快速全文检索方法及系统有效
申请号: | 201910780462.2 | 申请日: | 2019-08-22 |
公开(公告)号: | CN110866088B | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 金松昌;林旺群;林彬;王彦臻;蔡军;晏杰 | 申请(专利权)人: | 中国人民解放军军事科学院评估论证研究中心;中国人民解放军军事科学院国防科技创新研究院;天津(滨海)人工智能军民融合创新中心 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/28 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100091 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语料库 之间 快速 全文 检索 方法 系统 | ||
一种语料库之间的快速全文检索方法,包括:在多个预先构建的指纹库中依次任选两个,为所述两个指纹库分别划分指纹子集;采用分支界定法,基于其中一个指纹库的每个文档对应的指纹子集中的指纹,在另一指纹库中分别查找与所述指纹最相似的一个或多个指纹,构成一个指纹对;所述指纹对分别对应的所述一个指纹库的文档与所述另一个指纹库的文档为检索出的所述两个语料库中最相似的文档。本发明提供的技术方案通过所有同级的指纹子集的相似度上限确定检索目标,采用分支界定的方法,大规模精简待搜索文档的目标集合的规模和检索过程。
技术领域
本发明涉及文档检索领域,具体涉及一种语料库之间的快速全文检索方法及系统。
背景技术
随着互联网技术的快速发展,无论线上还是线下,文本库的规模急剧膨胀,如何在多个文本库中快速查找最相似的文档成为一个亟待解决的问题。
全文检索是指以全部文本信息作为检索对象的一种信息检索技术。全文检索的关键是文档的索引,即如何将源文档中所有基本元素的信息以适当的形式记录到索引库中。根据索引库中索引的元素不同,现有的全文检索系统可以分为基于字(word)表的全文检索和基于词(phrase)表的全文检索两种类型。
传统的基于关键字的检索方法,只对一条信息中具有检索意义的语词进行标引,它的标引深度总是有限的,无法满足人们对信息查全率的高要求;而全文检索系统可以对文本中的每个字、词进行标引,其标引的深度达到了极限,所以全文检索具有更高的查全率。主题词索引法和关键词索引法是采用人工赋词标引的方法,这些方法需要标引人员手工对各种信息进行加工处理,给出检索标识,所以效率低;而且标引质量由于手工的参与,带有很大的局限性。而全文检索系统可采用计算机自动抽取文本中的字、词进行标引,从而大大加快了标引的速度。全文检索系统除提供一般的“AND”、“OR”、“NOT”逻辑检索功能外,还能具备位置逻辑检索、字符串检索、截词检索等多种检索功能。
虽然现有的全文检索系统比传统的基于关键字的检索具有更强大的功能、更高的准确率以及效率等,但它本质上还是通过关键字匹配进行文本检索。但相比于人们的需求,它的效率低和准确率仍不及预期,这主要是由于全文检索技术的全词匹配和语词本身的特点导致的。
在许多实际应用中,我们真实的需求是在检索过程中使用文档,但更一般的情况是我们称之为“语料库之间”的查询,它将多个语料库作为输入,在多个语料库中查询最相似的文档对。在这种情况下,快速而准确地返回与所有文档最相似的1个或者多个文件的集合才是我们所期盼的结果。对于这种“语料库之间”的查询,由于需要比较的文档对的数量非常多,因此计算量会很大。在高精度和快速响应的要求下,现有的基于关键字、全文检索系统以及基于简单顺序扫描的搜索策略均无法有效处理此类情形,检索效率和准确率较低。
由于文档长短不一,使用简单的几个词语、短句甚至片段等无法表征其核心内容,或者说难以全面概括文档内容。此外,词序在文档中也扮演着重要的作用,传统的基于关键字的检索方法和现有的全文检索方法在这方面考虑不足,造成检索效率低,准确率低。研究成果表明,距离图(Distance Graph)可以有效反映文档的内容结构,如词序信息等,但距离图本身结构复杂,规模较大,为语料库中的所有文档构建距离图是可行的,但计算这些文档对应的距离图的相似度是不现实的,因为图的相似度计算涉及到的计算量太大。
发明内容
为了解决现有技术中所存在的语料库之间的检索效率低和准确率低的问题,本发明提供一种语料库之间的快速全文检索方法及系统。
本发明提供的技术方案是:
一种语料库之间的快速全文检索方法,其改进之处在于,所述方法包括:
在多个预先构建的指纹库中依次任选两个,为所述两个指纹库分别划分指纹子集;
采用分支界定法,基于其中一个指纹库的每个文档对应的指纹子集中的指纹,在另一指纹库中分别查找与所述指纹最相似的一个或多个指纹,构成一个指纹对;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军军事科学院评估论证研究中心;中国人民解放军军事科学院国防科技创新研究院;天津(滨海)人工智能军民融合创新中心,未经中国人民解放军军事科学院评估论证研究中心;中国人民解放军军事科学院国防科技创新研究院;天津(滨海)人工智能军民融合创新中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910780462.2/2.html,转载请声明来源钻瓜专利网。