[发明专利]基于块索引结构的文档检索方法、装置、介质和设备有效
申请号: | 202010980661.0 | 申请日: | 2020-09-17 |
公开(公告)号: | CN112199461B | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 刘波;李宇 | 申请(专利权)人: | 暨南大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F16/332;G06F16/338 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 郑浦娟 |
地址: | 510632 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 索引 结构 文档 检索 方法 装置 介质 设备 | ||
1.一种基于块索引结构的文档检索方法,其特征在于,所述方法包括:
从输入的文档集中提取关键词;
针对于各关键词进行扩展,得到与其相关联的扩展词,构建得到各关键词的扩展词表;
以各关键词作为索引词,预计算索引词与文档集中各文档之间的相关性分数,并排序存储到块索引结构中,从而构建得到输入文档集的索引表;
接收输入的查询语句;
从查询语句中抽取查询词,得到查询词集;
针对于查询词集中的各查询词,从索引表中获取与查询词匹配的所有索引词;同时从上述扩展词表中获取查询词的扩展词;
利用索引表中预计算的信息,将匹配的查询词及查询词相关联的扩展词与文档之间的相关性分数累加,动态锁定相关性累加分数前k名的文档,具体步骤包括:
从索引表中获取与各查询词匹配的所有索引词,同时从索引表中获取与查询词的扩展词匹配的所有索引词;
针对于各查询词,获取索引表中与该查询词匹配的索引词的各索引块,并且获取到各索引块中的max_score;
针对于各扩展词,获取索引标配中与该扩展词匹配的索引词的各索引块,并且获取到各索引块中的max_score,然后将各索引块中的max_score与该扩展词的置信度相乘,得到max_score1;
按照获取到的各查询词对应各索引块的max_score、各扩展词对应各索引块对应得到max_score1从大到小的排序,对各查询词和扩展词的索引块进行降序排序;
构建score_list列表,通过score_list列表存储候选文档的文档编号以及候选文档对应的相关性分数累加值,score_list列表初始设置为空;并且设置以下变量的初始值:max_scorenext=0,scorek+1=0,scorek=0,V=0;V表示已经扫描的索引块的数目;
针对于降序排序后的各索引块,进行依次扫描;
针对于当前扫描的索引块中各文档编号对应的各文档,若该文档d的文档编号未出现在score_list列表中,则获取索引块中该文档的文档编号及该文档与索引词对应的相关性分数;其中:
若当前扫描的索引块对应的索引词为查询词q匹配的索引词时,则将该文档d的文档编号及该文档d与索引词对应的相关性分数S(q,d)添加到score_list列表;
若当前扫描的索引块对应的索引词为查询词的扩展词e匹配的索引词时,则将该文档d的文档编号及该文档d与索引词对应的相关性分数S(e,d)和扩展词的置性度Conf(e,q)乘积后的值,添加到score_list列表;
针对于当前扫描的索引块中各文档编号对应的各文档,若该文档d的文档编号已经出现在score_list列表中,则获取索引块中该文档的文档编号及该文档与索引词对应的相关性分数;其中:
若当前扫描的索引块对应的索引词为查询词q匹配的索引词时,则将当前扫描前该文档对应的相关性分数累加值,加上当前扫描的索引块中该文档与索引词的相关性分数S(q,d),作为该文档当前扫描更新的相关性分数累加值;
若当前扫描的索引块对应的索引词为查询词的扩展词匹配的索引词时,则将当前扫描前score_list列表该文档对应的相关性分数累加值,加上当前扫描的索引块中该文档与索引词的相关性分数S(e,d)与扩展词的置性度Conf(e,q)乘积后的值,作为该文档当前的相关性分数累加值;
在当前扫描后,按照被扫描到的各文档当前的相关性分数累加值从大到小的顺序,在score_list列表存储文档编号及文档对应的相关性分数累加值,得到更新后的score_list列表;
同时,V的值加1,通过更新后的score_list列表更新scorek和scorek+1的值;其中:
若当前扫描后,被扫描过的文档数目小于k,则scorek和scorek+1均为0;
若扫描过的文档数目等于k,则scorek为当前更新后的score_list列表中排名第k的相关性分数累加值,scorek+1为0;
若扫描过的文档数目大于k时,则scorek、scorek+1表示score_list列表中当前排名第k和k+1的相关性分数累加值;
同时,根据下一次所要扫描的索引块更新max_scorenext的值,其中:
当下一次所要扫描的索引块是:与查询词匹配的索引词的索引块,则max_scorenext更新为:下一次所要扫描的索引块中的max_score的值;
当下一次所要扫描的索引块是:与查询词的扩展词匹配的索引词的索引块,则max_scorenext更新为:下一次所要扫描的索引块中的max_score和扩展词的置信度相乘后的值;
判定是否满足检索终止条件;
当满足检索终止条件,即前k名文档不再发生替换变动时,停止索引块的检索遍历,得到按查询相关性分数累加值排名前k的文档结果集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于暨南大学,未经暨南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010980661.0/1.html,转载请声明来源钻瓜专利网。