[发明专利]形近字确定方法、装置、计算机设备和存储介质有效
申请号: | 201910359360.3 | 申请日: | 2019-04-30 |
公开(公告)号: | CN110097002B | 公开(公告)日: | 2020-12-11 |
发明(设计)人: | 刘春 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 祝亚男 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 形近字 确定 方法 装置 计算机 设备 存储 介质 | ||
本公开是关于一种形近字确定方法、装置、计算机设备和存储介质,涉及网络技术领域,方法包括:获取第一字符和第二字符;获取该第一字符的第一结构特征和该第二字符的第二结构特征;根据该第一结构特征和该第二结构特征,确定该第一字符和该第二字符之间的结构相似度;基于该第一字符的第一字符图像和该第二字符的第二字符图像,确定该第一字符和该第二字符之间的图像相似度;根据该结构相似度和该图像相似度,确定该第一字符和该第二字符的相似度;根据该第一字符和该第二字符之间的相似度,获取该第一字符和该第二字符的形近字确定结果。通过综合字符结构以及图像显示多角度确定字符之间的相似程度,进而提高了确定形近字的准确性。
技术领域
本公开涉及网络技术领域,尤其涉及一种形近字确定方法、装置、计算机设备和存储介质。
背景技术
随着网络技术的发展,在许多场景中,终端会基于字符与字符之间的相似度,进行形近字识别。例如,识别网络评论中的变体字、用户手写输入文字场景、图像中文字识别等,终端通常需要基于两个字符的相似度来查找字符的形近字。
相关技术中,字符相似度确定的过程可以包括:终端对确定相似度的两个字符对应的两张图片进行二值化处理,然后通过统计两张图片的最大像素点匹配数目来确定两个字符的近似度。
上述过程实际上是基于字符所在图片进行相似度确定,然而,字体在不同设备系统中字体样式、图片的渲染方式等不同,因此,即使相同字符对应的图片也会有差异,导致字符相似度确定时的准确性较低。
发明内容
本公开提供一种形近字确定方法、装置、计算机设备和存储介质,可以解决相关技术中字符相似度确定时的准确性较低的技术问题。
根据本公开实施例的第一方面,提供一种形近字确定方法,包括:
获取第一字符和第二字符;
获取所述第一字符的第一结构特征和所述第二字符的第二结构特征;
根据所述第一结构特征和所述第二结构特征,确定所述第一字符和所述第二字符之间的结构相似度;
基于所述第一字符的第一字符图像和所述第二字符的第二字符图像,确定所述第一字符和所述第二字符之间的图像相似度;
根据所述结构相似度和所述图像相似度,确定所述第一字符和所述第二字符之间的相似度;
根据所述第一字符和所述第二字符之间的相似度,获取所述第一字符和所述第二字符的形近字确定结果,所述形近字确定结果用于指示所述第一字符和所述第二字符是否为形近字。
在一种可能实现方式中,字符的结构特征包括字符的笔画、笔画顺序、结构类型和四角编码,所述获取所述第一字符的第一结构特征和所述第二字符的第二结构特征包括:
分别根据所述第一字符的字符标识和所述第二字符的字符标识,从字符信息库中查询所述第一字符的存储地址和所述第二字符的存储地址;
从所述第一字符的存储地址中,获取所述第一字符的第一笔画、第一笔画顺序、第一结构类型和第一四角编码,从所述第二字符的存储地址中,获取所述第二字符的第二笔画、第二笔画顺序、第二结构类型和第二四角编码。
在一种可能实现方式中,所述根据所述第一结构特征和所述第二结构特征,确定所述第一字符和所述第二字符之间的结构相似度包括:
根据所述第一笔画和所述第二笔画,分别统计所述第一字符的第一笔画数目和所述第二字符的第二笔画数目,根据所述第一笔画数目和所述第二笔画数目,确定所述第一字符和所述第二字符之间的笔画数目相似度;
根据所述第一笔画顺序和所述第二笔画顺序,确定所述第一字符和所述第二字符之间的笔画顺序相似度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910359360.3/2.html,转载请声明来源钻瓜专利网。