[发明专利]一种多模型超图的手写汉字识别算法有效

专利信息
申请号: 201910021582.4 申请日: 2019-01-09
公开(公告)号: CN109784266B 公开(公告)日: 2021-12-03
发明(设计)人: 魏炳辉 申请(专利权)人: 江西理工大学应用科学学院
主分类号: G06K9/00 分类号: G06K9/00;G06K9/46;G06K9/62
代理公司: 苏州中合知识产权代理事务所(普通合伙) 32266 代理人: 赵晓芳
地址: 341001 江西*** 国省代码: 江西;36
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 模型 超图 手写 汉字 识别 算法
【说明书】:

发明公开了一种多模型超图的手写汉字识别算法,包括:特征提取、构建普通超图、构建稀疏超图、样本成对约束和融合稀疏表示与成对约束理论的超图学习。基于超图的学习模型是一种非常重要的直推式半监督学习方法,在已有的直推式半监督学习算法中,超图学习方法能获得较好的性能。

技术领域

本发明涉及汉字识别算法技术领域,尤其是涉及一种多模型超图的手写汉字识别算法。

背景技术

目前,地质调查的野外工作是数据的重要来源,这部分人工记录的原始地质资料在地质大数据中占有相当大的比例,其蕴含着大量有价值的信息,但出于技术原因,这部分数据中的信息无法利用,成为了“暗数据”。汉字识别技术主要分为印刷体识别和手写体识别两大类。手写汉字的随意性大,比印刷体难识别。手写汉字识别根据数据采集的方式又可分为联机识别和脱机识别。在联机识别中,计算机能获得输入字符的笔画顺序,因此比脱机识别获得的信息更多,更容易识别。再加上拍照或扫描的过程中,不同的光照、分辨率、纸张等都会带来干扰。因此,脱机手写汉字识别远比联机识别要难。

发明内容

本发明的目的在于提供一种多模型超图的手写汉字识别算法。

为实现上述目的,本发明采用以下内容:

一种多模型超图的手写汉字识别算法,包括:特征提取:利用8重交叉验证方法,即在每一次实验中,把所有标记数据与非标记数据分别分成8等份,选取其中1份作为训练样本集,剩下的7份为测试样本集。然后重复8次,每一个样本都有机会成为训练样本,取均值作为性能评估;构建普通超图:距离其最近的若干样本所组成的集合为一条超边;构建稀疏超图:把稀疏优化思想应用于流形聚类,依据流形聚类假设,数据样本集可能采样于多个子流形,每个子流形的维度不一定相同,利用稀疏表示求解方法可解得每个子流形聚类;样本成对约束:成对约束包含两个约束:必须连接约束和不能连接约束;利用训练样本的标记信息,必须连接约束表示,标记信息相同的样本或者说同类样本通过学习后,其类别信念必须相近;而不能连接约束规定不同类的样本通过学习后,其类别信念相距越远越好;融合稀疏表示与成对约束理论的超图学习。

优选的是,所述特征提取包括结构特征和统计特征;所述结构特征包括质心特征、笔划特征、笔划特征点和几何特征;所述统计特征包括方向特征、网格特征和Gabor特征。

优选的是,所述质心特征是文本笔划分布的体现,将二值图像转化成点阵形式,再依据质心计算公式求出水平质心与垂直质心;所述笔划特征由横、竖、撇、捺四种基本笔划构成,对单字分别提取这四种基本笔划,统计出各自的数量;所述笔划特征点主要有端点、折点、歧点与交点,端点是笔划的起点或终点,折点是笔划方向出现显著变化的点,歧点是三叉点,交点是四叉点,按序对二值图像进行扫描,统计出各笔划特征点的个数;所述几何特征是计算包含文本块的最小矩形的长宽比值。

优选的是,所述方向特征是文本块的方向角度;所述网格特征是把包含文本块的最小矩形平均分成若干行若干列,每个单元格中文字像素点的个数统计;Gabor特征是在网格基础上计算Gabor变换后的对应能量表示。

本发明具有以下优点:

本系统设计一种多模型的超图学习算法来识别手写汉字块,根据训练样本间距离关系构建样本关系阵,再以样本的稀疏表示参数为样本间的关系紧密性权重构建另一个样本关系阵,最后以样本约束法则为基础,以标记样本间的关系权重构建标记样本间的关系阵,融合这几个关系矩阵成为多模型的超图学习框架。通过迭代学习,找出最优的手写汉字块类别归属,在手写汉字块的实验中表现出一定的优势。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明。

图1是本发明的一种多模型超图的手写汉字识别算法的流程图。

图2是本发明的模型结构示意图。

图3和图4是本发明的实施例示意图。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江西理工大学应用科学学院,未经江西理工大学应用科学学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910021582.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top