[发明专利]用于确定文字形近度的方法和设备有效
申请号: | 201710067064.7 | 申请日: | 2017-02-07 |
公开(公告)号: | CN106874947B | 公开(公告)日: | 2019-03-12 |
发明(设计)人: | 王珵 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06K9/62 |
代理公司: | 北京展翼知识产权代理事务所(特殊普通合伙) 11452 | 代理人: | 屠长存 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 确定 文字 形近度 方法 设备 | ||
提供了一种用于确定文字形近度的方法和设备,所述方法包括(A)将待比较的第一文字和第二文字分别进行图片格式转换,以得到相应的第一图片和第二图片;(B)确定第一图片与第二图片之间的像素匹配情况;以及(C)基于确定的像素匹配情况来确定第一文字与第二文字之间的形近度。在根据本发明示例性实施例的用于确定文字形近度的方法和设备中,可基于文字转换为图片格式之后的像素匹配程度来判断文字的形近程度,从而不再受限于任何编码规则而成为一种通用的形近字确定方式。
技术领域
本发明总体说来涉及计算机信息处理,更具体地说,涉及一种基于计算机信息处理来确定文字形近度的方法和设备。
背景技术
在诸如中文、日文、韩文等语言中,存在大量字形上近似的文字,这些形近字的存在很容易导致文字使用上的错误。
过去较多地依靠人力来查找错误使用的形近字,但由于形近字本身容易混淆,导致不仅需要耗费大量的人力,而且难免错漏的情况。
随着计算机技术的发展,越来越多地采用自动识别的方式来查找形近字。通常,在文字基于字形被编码(例如,按照编码规则被转换为由1-5位字符(例如,字母或数字等)组成的码字)的情况下,可基于码字之间的编辑距离来确定文字之间的形近程度,这里,作为示例,编辑距离可基于码字之间字符的增加、删减或改换来计算。例如,公开号为CN103399907A的中国专利申请《一种基于编辑距离计算中文字符串相似度的方法及装置》公开了一种基于编辑距离计算中文字符串相似度的方法,其采用四角号码编码将字符串中的汉字转换成四角编码,从而基于编辑距离计算汉字的相似度。
上述文字编码对编码规则的依赖极强,然而,这些编码规则无法有效地刻画部首与部首之间的相似度。以汉字为例,五笔码、仓颉码、四角码等均基于汉字的部首和/或笔画等组件,但是编码结果之间的编辑距离常常无法体现出汉字之间的相似程度,例如,“宇”字的五笔编码为“PGFJ”,“盱”字的五笔编码为“HGFJ”,两者之间的编辑距离仅仅为1,但这两个字在视觉上并不相似。又例如,“操”字的四角编码为56094,“燥”字的四角编码为96894,两个码字之间仅有2个相同字符,编辑距离较大,然而这两个字的相似度实则极高。此外,对于笔画数特别少的文字,例如,“二”和“三”、“干”和“于”,也难以通过码字之间的编辑距离来判断近似性。
可以看出,基于码字之间的编辑距离来判断文字近似性时必然受到编码规则的限制,也就是说,编码时损失掉的那部分文字特点信息导致难以有效地衡量文字的形近程度。
发明内容
本发明的示例性实施例旨在克服现有技术中难以准确识别形近文字的缺陷。
根据本发明的示例性实施例,提供一种用于确定文字形近度的方法,包括:(A)将待比较的第一文字和第二文字分别进行图片格式转换,以得到相应的第一图片和第二图片;(B)确定第一图片与第二图片之间的像素匹配情况;以及(C)基于确定的像素匹配情况来确定第一文字与第二文字之间的形近度。
可选地,在所述方法中,在步骤(A)中,按照点阵字体将第一文字和第二文字分别进行图片格式转换。
可选地,在所述方法中,在步骤(B)中,以单个像素为单位来确定第一图片与第二图片之间的像素匹配情况。
可选地,在所述方法中,步骤(B)包括:(b1)对第一图片和第二图片的像素分别进行二值化处理;以及(b2)确定经过二值化处理之后的第一图片与第二图片之间的像素匹配情况。
可选地,在所述方法中,步骤(B)包括:(b3)对第一图片和第二图片分别进行至少一种几何变换;以及(b4)确定几何变换之前的第一图片以及经过每种几何变换后的第一图片分别与几何变换之前的第二图片以及经过每种几何变换后的第二图片之间的像素匹配情况;并且,步骤(C)包括:(c1)分别基于每个确定的像素匹配情况来确定第一文字与第二文字之间的候选形近度;以及(c2)将确定的候选形近度之中的最高候选形近度确定为第一图片与第二图片之间的形近度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710067064.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于子空间分析的分类识别方法
- 下一篇:一种黑臭水自动识别与评估方法