[发明专利]字符串相似度的确定方法、装置、存储介质及电子设备在审

专利信息
申请号: 202210456248.3 申请日: 2022-04-27
公开(公告)号: CN114943966A 公开(公告)日: 2022-08-26
发明(设计)人: 高爽笑;李飞;武春杰;荣刚 申请(专利权)人: 联宝(合肥)电子科技有限公司
主分类号: G06V30/12 分类号: G06V30/12;G06V30/19
代理公司: 北京乐知新创知识产权代理事务所(普通合伙) 11734 代理人: 江宇
地址: 230601 安徽省合肥市经济技*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 字符串 相似 确定 方法 装置 存储 介质 电子设备
【说明书】:

发明公开一种字符串相似度的确定方法,该方法包括:获取识别字符串和目标字符串,并确定识别字符串的长度和目标字符串的长度;若识别字符串需要变换操作转换为目标字符串,则根据变换操作的最少变换步数和变换操作的权重确定识别字符串与目标字符串的编辑距离;所述变换操作包括插入、删除、替换中的一种或多种,且不同变换操作的权重不同;根据识别字符串的长度、目标字符串的长度、编辑距离,确定识别字符串与目标字符串的相似度。本方案不需要对识别字符串进行切分,也不需要引入纠错字典辅助判断,因此识别字符串和目标字符串的相似度的确定效率更高;另外本方案通过给不同的变换操作分配不同的权重,相似度的准确率更高。

技术领域

本发明涉及数据处理的技术领域,尤其涉及一种字符串相似度的确定方法、装置、存储介质及电子设备。

背景技术

在不同的应用场景中,光学字符识别(Optical Character Recognition,OCR)工作执行完成后,常需要将识别结果与标准答案作对比,以对比结果为依据进行最终识别结果合格与否的判断,但不同的检测标准对对比结果的要求不一样。例如在用OCR识别检测有无的场景中不需要100%的文字对比精度,只要大部分文字出现了就认为合格。然而,对于检测标签贴附对错的应用场景来说,又需要绝对精准的字符串匹配,但受图像采集环境、图像与处理方法的影响,OCR识别又无法做到绝对的100%准确。

目前针对字符串匹配的问题,尤其是针对粗略对比的情形,大多采用将字符串切分为多个子字符串,然后判断答案字符串中是否包含子字符串的方法,当答案字符串中存在子字符串,则判断合格,反之,则不合格。该方案存在的缺点是:这种情况下需要及可能的去枚举所有可能的子字符串,对于略长一些的字符串很难枚举出所有情况。对于需要精准判断对错的情况,需要大量的纠错字典来进行常见误识别字符的纠错,随着纠错字典的不断增加,误判率会快速上升且比对时间也会大大加长。

发明内容

本发明提供一种字符串相似度的确定方法、装置、存储介质及电子设备,以至少解决现有技术中存在的以上技术问题。

本发明一方面提供一种字符串相似度的确定方法,该方法包括:

获取识别字符串和目标字符串,并确定所述识别字符串的长度和所述目标字符串的长度;

若所述识别字符串需要变换操作转换为所述目标字符串,则根据所述变换操作的最少变换步数和所述变换操作的权重确定所述识别字符串与所述目标字符串的编辑距离;所述变换操作包括插入、删除、替换中的一种或多种;

根据所述识别字符串的长度、所述目标字符串的长度、所述编辑距离,确定所述识别字符串与所述目标字符串的相似度。

在一可实施方式中,所述替换操作的权重大于所述插入操作的权重和所述删除操作的权重。

在一可实施方式中,若所述识别字符串的长度大于所述目标字符串的长度,则所述变换操作至少包括删除,根据所述识别字符串的长度和所述目标字符串的长度确定所述删除操作的权重。

在一可实施方式中,所述根据所述变换操作的权重确定所述识别字符串与所述目标字符串的编辑距离,包括:

确定由所述识别字符串变换为所述目标字符串的最少变换操作,并确定每个变换操作的变换步数;

根据所述变换步数和所述变换操作对应的权重,确定每个变换操作的变换距离;

将所有变换操作对应的变换距离之和,确定为所述述识别字符串与所述目标字符串的编辑距离。

在一可实施方式中,所述确定所述识别字符串与所述目标字符串的相似度,包括:

根据所述识别字符串的长度和所述目标字符串的长度,确定所述识别字符串和所述目标字符串的总长度;

根据所述总长度和所述编辑距离,确定所述总长度和所述编辑距离的差值;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联宝(合肥)电子科技有限公司,未经联宝(合肥)电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210456248.3/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top