[发明专利]一种多模型超图的手写汉字识别算法有效
申请号: | 201910021582.4 | 申请日: | 2019-01-09 |
公开(公告)号: | CN109784266B | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 魏炳辉 | 申请(专利权)人: | 江西理工大学应用科学学院 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62 |
代理公司: | 苏州中合知识产权代理事务所(普通合伙) 32266 | 代理人: | 赵晓芳 |
地址: | 341001 江西*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 超图 手写 汉字 识别 算法 | ||
1.一种多模型超图的手写汉字识别方法,其特征在于,包括:
特征提取:收集68个志愿者手写的64遍“网络基础”的文本块图像;利用8重交叉验证方法,即在每一次实验中,把所有标记数据与非标记数据分成8等份,选取其中1份作为训练样本集,剩下的7份为测试样本集,然后重复8次,每一个样本都有机会成为训练样本,取均值作为性能评估;实验首先对每个文本块进行特征分析,志愿者在写文字时没有限定写法,对字体、字号、粗细、字间距、高低不作要求,完全按照其真实的写法;所述特征提取包括结构特征和统计特征,其中,结构特征包含质心特征、笔划特征、笔划特征点、几何特征;
构建普通超图:距离其最近的若干样本所组成的集合为一条超边;设定图G=(X,E),所有样本x构成样本集X,和所有的超边e集合构成边集E,每一条超边包含了若干个样本,边的权重是该边中所有样本间的距离平均值;设定矩阵Dv、De和W对角线元素分别表示相应样本所在的边数、超边中样本的个数和超边的权值,设定邻接阵H,矩阵元素表示两样本间的连接关系;
构建稀疏超图:把稀疏优化思想应用于流形聚类,依据流形聚类假设,数据样本集可能采样于多个子流形,每个子流形的维度不一定相同,利用稀疏表示求解方法可解得每个子流形聚类;
样本成对约束:成对约束包含两个约束,必须连接约束和不能连接约束;利用训练样本的标记信息,必须连接约束表示,标记信息相同的样本或者同类样本通过学习后,其类别信念必须相近;而不能连接约束规定不同类的样本通过学习后,其类别信念相距越远越好,融合稀疏表示与成对约束理论的超图学习:在普通超图模型中融入稀疏表示与成对约束理论成为一种新的结合学习算法,本系统称之为多模型超图学习模型,
设定xi、xj与xk为样本,fi、fj、fk分别为xi、xj与xk的学习之后类别信念即对应的类别归属权值向量,C+表示同一类的所有样本集合,C-表示不同类的所有样本集合,必须连接约束表示为:
和不能连接约束表示为:
结合这两个约束为成对约束,表示为:
其中N+表示C+中样本的数量,T表示转置;表示类别信念矩阵;每一个块信念对应一个坐标序列,通过选择坐标序列Si将所有的信念块组合在一起为类别信念矩阵即Li表示局部几何信息;是一个基于成对约束的拉普拉斯矩阵,
因是以类别信念向量为列向量组合而成,与f在数值上是相等的,目标函数为:
其中βi为组合系数,L=β1Lc+β2Ls+β3Lp。
2.根据权利要求1所述的一种多模型超图的手写汉字识别方法,其特征在于,所述统计特征包括方向特征、网格特征和Gabor特征。
3.根据权利要求2所述的一种多模型超图的手写汉字识别方法,其特征在于,所述质心特征是文本笔划分布的体现,将二值图像转化成点阵形式,再依据质心计算公式求出水平质心与垂直质心;所述笔划特征由横、竖、撇、捺四种基本笔划构成,对单字分别提取这四种基本笔划,统计出各自的数量;所述笔划特征点主要有端点、折点、歧点与交点,端点是笔划的起点或终点,折点是笔划方向出现显著变化的点,歧点是三叉点,交点是四叉点,按序对二值图像进行扫描,统计出各笔划特征点的个数;所述几何特征是计算包含文本块的最小矩形的长宽比值。
4.根据权利要求2所述的一种多模型超图的手写汉字识别方法,其特征在于,所述方向特征是文本块的方向角度;所述网格特征是把包含文本块的最小矩形平均分成若干行若干列,每个单元格中文字像素点的个数统计;Gabor特征是在网格基础上计算Gabor变换后的对应能量表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江西理工大学应用科学学院,未经江西理工大学应用科学学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910021582.4/1.html,转载请声明来源钻瓜专利网。