[发明专利]相似字识别方法、装置、计算机设备及存储介质有效

申请号：	201810386017.3	申请日：	2018-04-26
公开（公告）号：	CN110414496B	公开（公告）日：	2022-05-27
发明（设计）人：	余淼;刘晓波;郑杰鹏;吴家林;邵英杰	申请（专利权）人：	百度在线网络技术（北京）有限公司
主分类号：	G06V30/10	分类号：	G06V30/10;G06V10/22;G06V10/762;G06N3/04;G06K9/62
代理公司：	北京鸿德海业知识产权代理有限公司 11412	代理人：	袁媛
地址：	100085 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	相似识别方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了相似字识别方法、装置、计算机设备及存储介质，其中方法包括：针对图片形式的每个待处理的文字，分别获取所述文字的图片特征、文字元件特征以及文字结构特征；根据获取到的特征确定出待处理的文字中的相似字。应用本发明所述方案，能够提高识别结果的准确性等。

【技术领域】

本发明涉及计算机应用技术，特别涉及相似字识别方法、装置、计算机设备及存储介质。

【背景技术】

许多汉字由于形体相似容易混淆，正确地识别/区别出这些易混淆的相似字，在很多方面有着重要的意义。

比如：为汉语学习者提供相似字检索功能，对比学习(例如：沧伦论沦)，加深记忆；为现有的光学字符识别(OCR，Optical Character Recognition)技术提供相似字候选列表，以供OCR纠错使用；为汉语手写体识别模型团队提供相似字列表，以供针对性训练识别模型，提高识别的准确率等。

现有技术中，通常采用以下相似字识别方式：基于人工标注的方式，即人工进行相似字标注，但这种方式需要耗费大量的人力成本；2)基于字形图片层面的相似性算法：即将汉字图片转换成特征表示，进而通过计算如向量距离来定义汉字之间的相似性，该方式虽然能够较大幅度地减少人力成本，但很多情况下并不能给出理想的结果，如对于形变字“日和曰”，两个汉字虽然相近，但是图片层面的像素点交集有限，因此无法有效地给出预期的相似性结果，从而降低了识别结果的准确性。

【发明内容】

有鉴于此，本发明提供了相似字识别方法、装置、计算机设备及存储介质。

具体技术方案如下：

一种相似字识别方法，包括：

针对图片形式的每个待处理的文字，分别获取所述文字的图片特征、文字元件特征以及文字结构特征；

根据获取到的特征确定出所述待处理的文字中的相似字。

根据本发明一优选实施例，所述获取所述文字的图片特征包括：

根据所述文字的图片中的各像素点的灰度值，将所述文字的图片转换为0和1组成的矩阵格式；

基于转换结果，通过卷积神经网络进行特征提取，得到所述图片特征。

根据本发明一优选实施例，所述获取所述文字的文字元件特征包括：

对所述文字进行拆字处理；

根据拆字结果生成所述文字元件特征。