[发明专利]一种基于文档进行检索的方法及装置有效
申请号: | 202110494158.9 | 申请日: | 2021-05-07 |
公开(公告)号: | CN113094519B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 武彬峰 | 申请(专利权)人: | 超凡知识产权服务股份有限公司 |
主分类号: | G06F16/38 | 分类号: | G06F16/38;G06F16/33;G06F40/284;G06F18/22 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 董艳芳 |
地址: | 610000 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文档 进行 检索 方法 装置 | ||
1.一种基于文档进行检索的方法,其特征在于,包括:
依据输入的待检索文档进行检索,获取与待检索文档相关联的多个候选检索文档;
针对每一候选检索文档,合并所述候选检索文档与待检索文档,得到合并文档,构建包含所述待检索文档、候选检索文档以及合并文档的相似度文档集;
针对每一相似度文档集,以其中的合并文档为匹配对象,在所述相似度文档集中进行相似度匹配,分别得到所述合并文档与相似度文档集的第一相似分数、所述待检索文档与合并文档的第二相似分数、以及所述候选检索文档与合并文档的第三相似分数;
将所述第一相似分数、第二相似分数以及第三相似分数应用于预先设置的相似度值计算公式,得到所述候选检索文档与待检索文档的相似度值;
基于所述候选检索文档与待检索文档的相似度值,对所述多个候选检索文档进行排序,依据排序结果返回检索结果;
所述将第一相似分数、第二相似分数以及第三相似分数应用于预先设置的相似度值计算公式,得到所述候选检索文档与待检索文档的相似度值,包括:
计算所述第二相似分数与第三相似分数的和值;
计算所述和值与所述第一相似分数的差值;
计算2倍的所述差值与所述第一相似分数的商值,得到所述候选检索文档与待检索文档的相似度值。
2.根据权利要求1所述的方法,其特征在于,所述依据输入的待检索文档进行检索,获取与待检索文档相关联的多个候选检索文档,包括:
对输入的待检索文档进行分词,得到分词词语;
对分词词语进行无意义词语去除,得到分词有效词语;
若分词有效词语的数量超过预先设置的数量阈值,进行分词有效词语的词频-逆文档频率的计算,依据计算结果选取排序在前数量阈值的分词有效词语,得到待检索文档的分词关键词;
基于所述分词关键词进行检索,获取与所述待检索文档相关联的多个候选检索文档。
3.根据权利要求1至2任一项所述的方法,其特征在于,所述以其中的合并文档为匹配对象,在所述相似度文档集中进行相似度匹配包括:
对包含待检索文档、候选检索文档以及合并文档的相似度文档集进行二次索引,构建倒排索引特征库。
4.根据权利要求3所述的方法,其特征在于,所述以其中的合并文档为匹配对象,在所述相似度文档集中进行相似度匹配,分别得到所述合并文档的第一相似分数、所述待检索文档与合并文档的第二相似分数、以及所述候选检索文档与合并文档的第三相似分数,包括:
对所述合并文档进行分词,得到合并文档分词词语;
对合并文档分词词语进行无意义词语去除,得到合并文档分词有效词语;
依据统计的合并文档分词有效词语的词频-逆文档频率,选取排序在前数量阈值的合并文档分词有效词语,得到合并文档分词关键词;
基于所述合并文档分词关键词对所述倒排索引特征库进行二次检索,分别得到所述合并文档的第一相似分数、所述待检索文档与合并文档的第二相似分数、以及所述候选检索文档与合并文档的第三相似分数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于超凡知识产权服务股份有限公司,未经超凡知识产权服务股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110494158.9/1.html,转载请声明来源钻瓜专利网。