[发明专利]清单相似度的计算方法、装置、计算机设备和存储介质在审
申请号: | 202011554205.6 | 申请日: | 2020-12-24 |
公开(公告)号: | CN112559559A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 钟荣清 | 申请(专利权)人: | 中国建设银行股份有限公司 |
主分类号: | G06F16/2453 | 分类号: | G06F16/2453 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 尹宗美;冯培培 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 清单 相似 计算方法 装置 计算机 设备 存储 介质 | ||
本发明公开了一种清单相似度的计算方法、装置、计算机设备和存储介质,涉及数据处理技术领域。该方法的一具体实施方式包括:获取待筛查数据和清单索引;判断所述待筛查数据是否满足预定规则;如果所述待筛查数据满足所述预定规则,得到与所述待筛查数据对应的所述清单索引中的清单单词,则根据所述待筛查数据和所述清单单词,利用编辑距离计算得到第一相似度、经处理的待筛查数据、经处理的清单单词和调整后的编辑距离误差分数;如果第一相似度大于预定阈值,则根据所述经处理的待筛查数据和所述经处理的清单单词,利用最长公共子序列得到第二相似度;结合调整后的编辑距离误差分数和第二相似度得到最终相似度。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种清单相似度的计算方法、装置、计算机设备和存储介质。
背景技术
目前,基于待筛查客户与清单客户数据进行相似度匹配的方法在清单筛查相似度匹配领域开展业务。
相似度在诸如自动评分系统、抄袭检测系统、网页搜索、数据清洗、DNA序列匹配等领域的诸多领域都有广泛的应用,同样相似度匹配计算常用于反洗钱与反恐怖融资名单监控。目前相似度度量算法很多,诸如heckel算法、贪心字符串匹配算法(Greedy StringTiling)、编辑距离(Levenshtein Distance,LD)和最长公共子序列(Longest CommonSubsequences,LCS)等算法。不同的算法实现原理不同,其算法时间复杂度和计算出来的相似度也会有差别。
编辑距离算法是由俄罗斯的数学家Vladimir Levenshtein在1965年提出的。编辑距离算法是针对二个字符串(例如英文字)的差异程度的量化量测,计量方式是分析至少需要多少次的处理才能将一个字符串A转换成另一字符串B。编辑距离可以用在自然语言处理中,例如拼写检查通过一个拼错的字和其他正确的字的编辑距离,判断哪一个(或哪几个)是比较可能的字。一般来说,两个字符串的编辑距离越小,则它们越相似。如果两个字符串相等,则它们的编辑距离为0。直接将编辑距离算法应用于清单筛查匹配,主要可以考虑单词的相似性,但是未能考虑多个单词组合的先后顺序,可能导致单词组合顺序不一致导致单词组合相似度计算按单词分析结果一致,例如客户A:zhong rong qing和客户B:zhongqing rong在国内客户其实不是同一个人,然而编辑距离算法可能将客户A和客户B完全分析为同一人。
最长公共子序列是将两个给定字符串分别删去零个或多个字符,但不改变剩余字符的顺序后得到的长度最长的相同字符序列。可采用递归方法计算最长公共子序列的长度,也可以采用动态规划来计算公共子序列的长度。通过最长公共子序列计算出来的相似度,对于两个待比较字符串个数偏差多些时候有可能值偏差略大。
由于清单名称或者地址非单个字符串的比较,目前任何一种方法无法非常准确的计量出其相似度。为实现匹配的准确性,同时考虑到算法计量时间复杂度,本发明提出了一种结合编辑距离和最长公共子序列实现对清单名称或地址匹配方法。
发明内容
有鉴于此,本发明实施例提供一种清单相似度的计算方法、装置、计算机设备和存储介质,实现了对于待筛查的名称或者地址信息,首先通过编辑距离计算名称或地址里面每个元素的相似度,得到初次决策匹配分,过滤去除相似度未能符合阈值要求的;接着根据单词组合的维度,通过最长公共子序列计算名称或地址的相似度,得到最终决策匹配分和清单筛查匹配结果。本发明通过决策融合,综合编辑距离算法和最长公共子序列算法优势,可以准确的筛查出匹配结果;避免了采用单一编辑距离算法,未能考虑客户名字顺序变化被筛查出来的情况,例如:“钟荣清”和“钟清荣”被筛查出来;同时避免采用单一最长公共子序列算法,未能较有效的反映单词字符串长度相似度分值权重问题。本发明实施例综合考虑了待筛查数据和清单数据特性,有效减少计算时间复杂度,同时提升清单筛查匹配准确性。
为实现上述目的,根据本发明实施例的一个方面,提供了一种清单相似度的计算方法,其特征在于,包括:
获取待筛查数据和清单索引;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司,未经中国建设银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011554205.6/2.html,转载请声明来源钻瓜专利网。