[发明专利]清单相似度的计算方法、装置、计算机设备和存储介质在审
申请号: | 202011554205.6 | 申请日: | 2020-12-24 |
公开(公告)号: | CN112559559A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 钟荣清 | 申请(专利权)人: | 中国建设银行股份有限公司 |
主分类号: | G06F16/2453 | 分类号: | G06F16/2453 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 尹宗美;冯培培 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 清单 相似 计算方法 装置 计算机 设备 存储 介质 | ||
1.一种清单相似度的计算方法,其特征在于,所述方法包括:
获取待筛查数据和清单索引;
判断所述待筛查数据是否满足预定规则;
如果所述待筛查数据满足所述预定规则,得到与所述待筛查数据对应的所述清单索引中的清单单词,则根据所述待筛查数据和所述清单单词,利用编辑距离计算处理后的待筛查数据和处理后的清单数据得到第一相似度及调整后的编辑距离误差分数;
如果第一相似度大于预定阈值,则根据所述经处理的待筛查数据和所述经处理的清单单词,利用最长公共子序列得到第二相似度;
结合调整后的编辑距离误差分数和第二相似度得到最终相似度。
2.根据权利要求1所述的方法,其特征在于,
所述预定规则包括所述待筛查数据是否能够被Solr引擎返回。
3.根据权利要求2所述的方法,其特征在于,进一步包括:
当根据Solr引擎的命中得分大于筛查最小命中词个数与所述待筛查数据之比时,所述Solr引擎返回所述待筛查数据。
4.根据权利要求3所述的方法,其特征在于,进一步包括:
所述筛查最小命中词个数是所述待筛查数据的单词个数乘以预定阈值后向下取整得到的。
5.根据权利要求4所述的方法,其特征在于,进一步包括:
所述调整后的编辑距离误差分数为所述待筛查数据中的每一个单词的未匹配分数之和。
6.根据权利要求5所述的方法,其特征在于,进一步包括:
所述未匹配分数是所述待筛查数据与清单数据未匹配度的单词的分值的编辑距离折减系数分值之和。
7.根据权利要求6所述的方法,其特征在于,进一步包括:
所述每个单词的分值为100除以所述清单单词的单词个数。
8.根据权利要求6所述的方法,其特征在于,进一步包括:
所述编辑距离折减系数为0到1之间的自然数,所述编辑距离折减系数是能够变化的。
9.根据权利要求8所述的方法,其特征在于,进一步包括:
所述编辑距离折减系数大于0.5。
10.一种清单相似度的计算装置,其特征在于,所述装置包括:
候选词获取模块,所述候选词获取模块用于获取待筛查数据和清单索引,并判断所述待筛查数据是否满足预定规则;
第一相似度计算模块,所述第一相似度计算模块用于当所述待筛查数据满足所述预定规则,得到与所述待筛查数据对应的所述清单索引中的清单单词,根据所述待筛查数据和所述清单单词,利用编辑距离计算处理后的待筛查数据和处理后的清单数据得到第一相似度及调整后的编辑距离误差分数;
第二相似度计算模块,所述第二相似度计算模块用于当所述第一相似度大于预定阈值时,则根据所述经处理的待筛查数据和所述经处理的清单单词,利用最长公共子序列得到第二相似度;
融合模块,所述融合模块用于结合调整后的编辑距离误差分数和第二相似度得到最终相似度。
11.根据权利要求10所述的装置,其特征在于,所述预定规则包括所述待筛查数据是否能够被Solr引擎返回。
12.根据权利要求11所述的装置,其特征在于,进一步包括:
当根据Solr引擎的命中得分大于筛查最小命中词个数与所述待筛查数据之比时,所述Solr引擎返回所述待筛查数据。
13.根据权利要求12所述的装置,其特征在于,进一步包括:
所述筛查最小命中词个数是所述待筛查数据的单词个数乘以预定阈值后向下取整得到的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司,未经中国建设银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011554205.6/1.html,转载请声明来源钻瓜专利网。