[发明专利]一种语料库之间的快速全文检索方法及系统有效
申请号: | 201910780462.2 | 申请日: | 2019-08-22 |
公开(公告)号: | CN110866088B | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 金松昌;林旺群;林彬;王彦臻;蔡军;晏杰 | 申请(专利权)人: | 中国人民解放军军事科学院评估论证研究中心;中国人民解放军军事科学院国防科技创新研究院;天津(滨海)人工智能军民融合创新中心 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/28 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100091 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语料库 之间 快速 全文 检索 方法 系统 | ||
1.一种语料库之间的快速全文检索方法,其特征在于,包括:
在多个预先构建的指纹库中依次任选两个,为所述两个指纹库分别划分指纹子集;
采用分支界定法,基于其中一个指纹库的每个文档对应的指纹子集中的指纹,在另一指纹库中分别查找与所述指纹最相似的一个或多个指纹,构成一个指纹对;
所述指纹对分别对应的所述一个指纹库的文档与所述另一个指纹库的文档为检索出的所述两个语料库中最相似的文档;
其中,每个指纹库分别基于一个语料库构建,每个语料库包含多个文档,每个文档对应多个指纹子集;
所述指纹库的构建包括:
基于每个语料库,对所述语料库中所有文档的全文执行停用词去除操作,得到有效文档集;
基于所述有效文档集,生成语料库中文档对应的距离图;
按照所述距离图中的边数将指纹划分到不同层级,生成指纹索引,构建所述语料库对应的指纹库;
所述划分指纹子集包括:
基于所述指纹索引,将指纹库按照指纹高度分组,得到分级指纹集;
基于分级指纹集,得到各分级指纹集的代表点集合和对应各代表点的指纹集合;
基于各分级指纹集的代表点集合和对应各代表点的指纹集合,根据归一化半径和预先设置的指纹子集最小规模临界量划分并行子集;
其中,所述代表点为分级指纹集合中与内其他指纹的相似度最大的指纹;
所述基于分级指纹集,得到各分级指纹集的代表点集合和对应各代表点的指纹集合包括:
随机选取所述各分级指纹集中的一批指纹构成的代表点集合,对所述各分级指纹集中的指纹进行顺序扫描,如果指纹到所述代表点集合中最近代表点的归一化汉明距离不超过归一化半径,则将该指纹放入最近代表点对应的集合中,否则放入代表点集合中,直至所述各分级指纹集中的指纹扫描完毕,得到各分级指纹集的代表点集合和对应各代表点的指纹集合;
所述基于各分级指纹集的代表点集合和对应各代表点的指纹集合,根据归一化半径和预先设置的指纹子集最小规模临界量划分指纹子集包括:
对一个对应代表点的指纹集合进行遍历,如果指纹的规模小于预先设置的指纹子集最小规划临界量,则将与所述指纹对应的代表点从代表点集合中移出,并将所述代表点与所述指纹一起放到临时指纹集合中;
遍历所述临时指纹集合,若所述指纹与其对应的代表点的归一化汉明距离小于归一化半径,则将所述指纹从所述代表点集合中移到对应代表点的指纹集合中;否则,将指纹添加到大离群点集合中;
代表点集合中剩余的代表点与对应的指纹集合构成了一个指纹子集;所述代表点为指纹集合中与内其他指纹的相似度最大的指纹;
将所有对应各代表点的指纹集合进行划分,生成指纹子集。
2.如权利要求1所述的语料库之间的快速全文检索方法,其特征在于,采用分支界定法,基于其中一个指纹库的每个文档对应的指纹子集中的指纹,在另一指纹库中分别查找与所述指纹最相似的一个或多个指纹,构成一个指纹对;包括:
计算其中一个指纹库和另一个指纹库中的所有同级的指纹子集的相似度上限;
将其中一个指纹库中的某个指纹子集与另一个指纹库中同级的指纹子集的相似度上限进行降序排序,根据预先设定的选取值确定所述另一指纹库中的检索目标;
基于所述检索目标,采用分支界定法查找与所述指纹子集中某个指纹最相似的一个或多个指纹,构成指纹对;
重复上述步骤查找其中一个指纹库中的所有指纹在另一个指纹库中的最相似的一个或多个指纹,分别构成指纹对;
其中,所述指纹对中,键为其中一个指纹库中的某个指纹子集的某个指纹,值为查找到的与所述指纹最相似的另一个指纹库中的一个或多个指纹。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军军事科学院评估论证研究中心;中国人民解放军军事科学院国防科技创新研究院;天津(滨海)人工智能军民融合创新中心,未经中国人民解放军军事科学院评估论证研究中心;中国人民解放军军事科学院国防科技创新研究院;天津(滨海)人工智能军民融合创新中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910780462.2/1.html,转载请声明来源钻瓜专利网。