[发明专利]字符相似性的判断方法及装置在审
申请号: | 201510917453.5 | 申请日: | 2015-12-10 |
公开(公告)号: | CN105608462A | 公开(公告)日: | 2016-05-25 |
发明(设计)人: | 汪平仄;张涛;侯文迪 | 申请(专利权)人: | 小米科技有限责任公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/20 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 鞠永善 |
地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字符 相似性 判断 方法 装置 | ||
技术领域
本公开涉及互联网技术领域,尤其涉及一种字符相似性的判断方法及装置。
背景技术
随着互联网技术和终端技术的发展,利用手写在终端中输入字符的方式已 经越来越普遍,上述字符可以为汉字字符、日语字符等,然而在手写输入的过 程中,由于一些字符之间具有相似性,因此用户可能会无意识地输入相似字符, 也即是错别字,在这种情况下,终端就需要利用书写纠错技术进行纠错,此外, 书写纠错技术还广泛应用于扫描件识别、文档查错等其他领域中。
相关技术中,书写纠错技术往往依赖于错别字词典中定义的相似字对来发 现错别字,顾名思义,该相似字对中包括相似度较高的一对字符,例如,“已” 和“巳”,然而上述错别字词典一般采用人工进行编撰整理,且由人工定义各相 似字对中字符的相似程度,这样的方法不仅需要耗费大量的人力资源,同时也 具有较大的主观性,因此,目前亟需一种自动判断字符相似性的方法,从而利 用该方法自动整理错别字词典。
发明内容
为克服相关技术中存在的问题,本公开提供一种字符相似性的判断方法及 装置。
根据本公开实施例的第一方面,提供一种字符相似性的判断方法,包括:
获取待检测的第一字符序列和第二字符序列;
获取第一笔顺序列和第二笔顺序列,所述第一笔顺序列为所述第一字符序 列中按照书写顺序排列的笔画,所述第二笔顺序列为所述第二字符序列中按照 书写顺序排列的笔画;
获取所述第一笔顺序列和所述第二笔顺序列之间的最小的编辑距离,所述 编辑距离为所述第一笔顺序列转变成所述第二笔顺序列所需要的变换操作次 数;
根据所述最小的编辑距离,获取所述第一字符序列和所述第二字符序列的 相似性。
在第一方面的第一种可能的实施方式中,所述根据所述最小的编辑距离, 获取所述第一字符序列和所述第二字符序列的相似性包括:
根据相似度计算公式计算所述第一字符序列和所述第二字符序列的相似 度,所述相似度计算公式为:
Sim=1-Dmin/max(A,B)
其中,Sim为所述第一字符序列和所述第二字符序列的相似度,Dmin为所述 最小的编辑距离,A为所述第一笔顺序列包括的笔画数目,B为所述第二笔顺序 列包括的笔画数目,max()为求最大值运算。
在第一方面的第二种可能的实施方式中,所述变换操作包括删除笔画操作、 插入笔画操作以及替换笔画操作中的至少一种。
在第一方面的第三种可能的实施方式中,所述第一字符序列和所述第二字 符序列包括一个或多个字符。
在第一方面的第四种可能的实施方式中,所述第一字符序列和所述第二字 符序列为分割汉字。
根据本公开实施例的第二方面,提供一种字符相似性的判断装置,包括:
字符序列获取模块,用于获取待检测的第一字符序列和第二字符序列;
笔顺序列获取模块,用于获取第一笔顺序列和第二笔顺序列,所述第一笔 顺序列为所述字符序列获取模块获取的所述第一字符序列中按照书写顺序排列 的笔画,所述第二笔顺序列为所述字符序列获取模块获取的所述第二字符序列 中按照书写顺序排列的笔画;
编辑距离获取模块,用于获取所述笔顺序列获取模块获取的所述第一笔顺 序列和所述第二笔顺序列之间的最小的编辑距离,所述编辑距离为所述第一笔 顺序列转变成所述第二笔顺序列所需要的变换操作次数;
相似性获取模块,用于根据所述编辑距离获取模块获取的所述最小的编辑 距离,获取所述第一字符序列和所述第二字符序列的相似性。
在第二方面的第一种可能的实施方式中,所述相似性获取模块用于:
根据相似度计算公式计算所述字符序列获取模块获取的所述第一字符序列 和所述第二字符序列的相似度,所述相似度计算公式为:
Sim=1-Dmin/max(A,B)
其中,Sim为所述第一字符序列和所述第二字符序列的相似度,Dmin为所述 最小的编辑距离,A为所述第一笔顺序列包括的笔画数目,B为所述第二笔顺序 列包括的笔画数目,max()为求最大值运算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于小米科技有限责任公司,未经小米科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510917453.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于使车辆传动系运行的方法
- 下一篇:风机叶轮、系统和传动装置结构系列