[发明专利]一种多模型超图的手写汉字识别算法有效

申请号：	201910021582.4	申请日：	2019-01-09
公开（公告）号：	CN109784266B	公开（公告）日：	2021-12-03
发明（设计）人：	魏炳辉	申请（专利权）人：	江西理工大学应用科学学院
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/46;G06K9/62
代理公司：	苏州中合知识产权代理事务所(普通合伙) 32266	代理人：	赵晓芳
地址：	341001 江西***	国省代码：	江西;36
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种模型超图手写汉字识别算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种多模型超图的手写汉字识别方法，其特征在于，包括：

特征提取：收集68个志愿者手写的64遍“网络基础”的文本块图像；利用8重交叉验证方法，即在每一次实验中，把所有标记数据与非标记数据分成8等份，选取其中1份作为训练样本集，剩下的7份为测试样本集，然后重复8次，每一个样本都有机会成为训练样本，取均值作为性能评估；实验首先对每个文本块进行特征分析，志愿者在写文字时没有限定写法，对字体、字号、粗细、字间距、高低不作要求，完全按照其真实的写法；所述特征提取包括结构特征和统计特征，其中，结构特征包含质心特征、笔划特征、笔划特征点、几何特征；

构建普通超图：距离其最近的若干样本所组成的集合为一条超边；设定图G＝(X,E)，所有样本x构成样本集X，和所有的超边e集合构成边集E，每一条超边包含了若干个样本，边的权重是该边中所有样本间的距离平均值；设定矩阵D_v、D_e和W对角线元素分别表示相应样本所在的边数、超边中样本的个数和超边的权值，设定邻接阵H，矩阵元素表示两样本间的连接关系；

构建稀疏超图：把稀疏优化思想应用于流形聚类，依据流形聚类假设，数据样本集可能采样于多个子流形，每个子流形的维度不一定相同，利用稀疏表示求解方法可解得每个子流形聚类；

样本成对约束：成对约束包含两个约束，必须连接约束和不能连接约束；利用训练样本的标记信息，必须连接约束表示，标记信息相同的样本或者同类样本通过学习后，其类别信念必须相近；而不能连接约束规定不同类的样本通过学习后，其类别信念相距越远越好，融合稀疏表示与成对约束理论的超图学习：在普通超图模型中融入稀疏表示与成对约束理论成为一种新的结合学习算法，本系统称之为多模型超图学习模型，

设定x_i、x_j与x_k为样本，f_i、f_j、f_k分别为x_i、x_j与x_k的学习之后类别信念即对应的类别归属权值向量,C₊表示同一类的所有样本集合，C_-表示不同类的所有样本集合,必须连接约束表示为：

和不能连接约束表示为：

结合这两个约束为成对约束，表示为：

其中N₊表示C₊中样本的数量，T表示转置；表示类别信念矩阵；每一个块信念对应一个坐标序列，通过选择坐标序列S_i将所有的信念块组合在一起为类别信念矩阵即L_i表示局部几何信息；是一个基于成对约束的拉普拉斯矩阵，

因是以类别信念向量为列向量组合而成，与f在数值上是相等的，目标函数为：

其中β_i为组合系数，L＝β₁L^c+β₂L^s+β₃L^p。

2.根据权利要求1所述的一种多模型超图的手写汉字识别方法，其特征在于，所述统计特征包括方向特征、网格特征和Gabor特征。

3.根据权利要求2所述的一种多模型超图的手写汉字识别方法，其特征在于，所述质心特征是文本笔划分布的体现，将二值图像转化成点阵形式，再依据质心计算公式求出水平质心与垂直质心；所述笔划特征由横、竖、撇、捺四种基本笔划构成，对单字分别提取这四种基本笔划，统计出各自的数量；所述笔划特征点主要有端点、折点、歧点与交点，端点是笔划的起点或终点，折点是笔划方向出现显著变化的点，歧点是三叉点，交点是四叉点，按序对二值图像进行扫描，统计出各笔划特征点的个数；所述几何特征是计算包含文本块的最小矩形的长宽比值。

4.根据权利要求2所述的一种多模型超图的手写汉字识别方法，其特征在于，所述方向特征是文本块的方向角度；所述网格特征是把包含文本块的最小矩形平均分成若干行若干列，每个单元格中文字像素点的个数统计；Gabor特征是在网格基础上计算Gabor变换后的对应能量表示。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江西理工大学应用科学学院，未经江西理工大学应用科学学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910021582.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种轨面语义分割方法及装置
下一篇：一种移动端多源融合图像语义内容生成系统及方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种多模型超图的手写汉字识别算法有效

专利文献下载