[发明专利]一种电子文档筛选查询方法及系统在审
申请号: | 202310920071.2 | 申请日: | 2023-07-26 |
公开(公告)号: | CN116662521A | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 单良;王亚平;路阳;江伟欢;刘伟家;郑楠 | 申请(专利权)人: | 广东省建设工程质量安全检测总站有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/216;G06F40/284;G06F40/30;G06F16/33 |
代理公司: | 广州渣津专利代理事务所(特殊普通合伙) 44516 | 代理人: | 申宏辉 |
地址: | 510000 广东省广州市天河区先*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电子 文档 筛选 查询 方法 系统 | ||
1.一种电子文档筛选查询方法,其特征在于,所述方法包括:
连接业务管理系统,确定检索域;
基于所述检索域获取目标文档集,跨域关联构建检索数据库,所述检索数据库由多个检索数据子库构成,各检索数据子库存在数据类型差异,所述检索数据库实时更新;
基于查询需求,确定主关键词集合与从关键词集合,配置关键词矩阵,所述从关键词集合由所述主关键词集合多元化处理获取;
结合相似度匹配算法,遍历所述多个检索数据子库对所述关键词矩阵进行匹配,生成相似度矩阵,其中,关键词出现频次为附加生成信息;
设定相似度阈值,基于所述相似度阈值对所述相似度矩阵进行判定,确定单项关键词匹配结果,其中,匹配成功标识为1,匹配失败标识为0;
基于所述单项关键词匹配结果,对所述相似度矩阵逐矩阵列求和生成相似度匹配结果,所述相似度匹配结果表征匹配的关键词集合与所述检索数据库中单项文档的综合相似度;
基于所述相似度匹配结果进行文档映射,确定文档查询结果。
2.如权利要求1所述的方法,其特征在于,所述配置关键词矩阵,方法包括:
基于所述查询需求,提炼多个主关键词,作为所述主关键词集合;
配置多元化处理调幅;
基于所述多元化处理调幅,对所述主关键词集合进行上位化处理,确定第一从属关键词集合;
基于所述多元化处理调幅,对所述主关键词集合进行下位化处理,确定第二从属关键词集合;
对所述主关键词集合进行转换处理,确定第三从属关键词集合;
基于所述第一从属关键词集合、所述第二从属关键词集合与所述第三从属关键词集合,确定从关键词集合,所述从关键词集合带有主相关度标识;
将关键词序列作为矩阵行,将关键词类目作为矩阵列,基于所述主关键词集合与所述从关键词集合搭建所述关键词矩阵。
3.如权利要求2所述的方法,其特征在于,所述生成相似度矩阵,方法包括:
基于所述关键词矩阵,提取所述主关键词集合;
遍历所述多个检索数据子库,对所述基于所述主关键词集合进行相似度匹配,确定一项相似度矩阵;
若所述一项相似度矩阵为空,提取所述从关键词集合并遍历所述多个检索数据子库进行相似度匹配,确定二项相似度矩阵;
若所述二项相似度矩阵为空,基于所述主关键词集合,遍历所述多个检索数据子库进行语义识别,获取三项相似度矩阵。
4.如权利要求3所述的方法,其特征在于,获取相似度矩阵计算公式,方法包括:
;
其中,表征关键词出现频次,表征主相关度,为待进行匹配分析的关键词矩阵,为列矩阵,为所述检索数据库中的文档矩阵,为行矩阵,表示第M个关键词与第N项文档的相似度,M、N为量值,表征关键词项数与文档项数,针对所述一项相似度矩阵,=1。
5.如权利要求4所述的方法,其特征在于,获取矩阵列求和公式,方法包括:
;
其中,为M个关键词与第j项文档的相似度匹配结果,表示第i个关键词与第j项文档的相似度,iM,jN。
6.如权利要求1所述的方法,其特征在于,于所述多个检索数据子库中对所述关键词矩阵进行匹配,之前,方法包括:
配置多元数据处理规则;
基于所述数据处理规则,对所述多个检索数据子库执行规则匹配与数据预处理,确定预处理数据库;
基于所述预处理数据库,进行所述关键词矩阵的匹配执行。
7.如权利要求1所述的方法,其特征在于,所述确定文档查询结果,方法包括:
对所述相似度匹配结果进行正序列化调整,生成相似度序列,所述相似度序列由大到小排列;
获取查询需求项数;
基于所述查询需求项数对所述相似度序列进行截取,反向匹配映射文档,集成作为查询文档集合;
基于所述查询文档集,确定所述文档查询结果,所述文档查询结果具有文档优先级。
8.一种电子文档筛选查询系统,其特征在于,所述系统包括:
确定检索域模块,所述确定检索域模块用于连接业务管理系统,确定检索域;
检索数据库构建模块,所述检索数据库构建模块基于所述检索域获取目标文档集,跨域关联构建检索数据库,所述检索数据库由多个检索数据子库构成,各检索数据子库存在数据类型差异,所述检索数据库实时更新;
关键词矩阵模块,所述关键词矩阵模块用于基于查询需求,确定主关键词集合与从关键词集合,配置关键词矩阵,所述从关键词集合由所述主关键词集合多元化处理获取;
相似度矩阵模块,所述相似度矩阵模块用于结合相似度匹配算法,遍历所述多个检索数据子库对所述关键词矩阵进行匹配,生成相似度矩阵,其中,关键词出现频次为附加生成信息;
关键词匹配结果模块,所述关键词匹配结果模块用于设定相似度阈值,基于所述相似度阈值对所述相似度矩阵进行判定,确定单项关键词匹配结果,其中,匹配成功标识为1,匹配失败标识为0;
相似度匹配结果模块,所述相似度匹配结果模块基于所述单项关键词匹配结果,对所述相似度矩阵逐矩阵列求和生成相似度匹配结果,所述相似度匹配结果表征匹配的关键词集合与所述检索数据库中单项文档的综合相似度;
文档查询结果模块,所述文档查询结果模块基于所述相似度匹配结果进行文档映射,确定文档查询结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东省建设工程质量安全检测总站有限公司,未经广东省建设工程质量安全检测总站有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310920071.2/1.html,转载请声明来源钻瓜专利网。