[发明专利]一种在线手写中日文的识别方法在审
申请号: | 201610898064.7 | 申请日: | 2016-10-14 |
公开(公告)号: | CN106570458A | 公开(公告)日: | 2017-04-19 |
发明(设计)人: | 刘建生 | 申请(专利权)人: | 上海新同惠自动化系统有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 上海集信知识产权代理有限公司31254 | 代理人: | 洪玲 |
地址: | 201500 上海市金山*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种在线手写中日文识别方法。通过应用结构化字典表示(structured dictionary representation)和矢量量化(VQ)技术建立一种紧凑型的基于MRF在线字符识别方法,实现对大规模中日文字符集的识别。本发明将字符分解为组成字符的基本要素自由基,通过基于MRF的模型将组成不同字符的相同的自由基进行共享,节省了字典模型的存储空间。此外,本发明同时应用了VQ技术压缩字符识别器,可以在不损失识别率的同时,进一步大幅压缩字典模型的存储空间。 | ||
搜索关键词: | 一种 在线 手写 日文 识别 方法 | ||
【主权项】:
一种在线手写中日文识别方法,其特征在于按照如下步骤实现:步骤S1:字符识别,首先把输入的手写体文字在保存原输入文字的水平和垂直比率不变情况下进行线性正规化处理,转化成标准大小的文字,然后重新抽取特征点。对于输入文字的每一条边,首先将该边的起始点和终止点选为特征点;其次,如果该边上除了已经选为特征点外的某一点到相邻特征点的距离大于某一阈值,则该点也被选为特征点.这样一直选择特征点直到没有别的特征点可选为止;步骤S2:采用MRF模型作为在线识别器的识别函数。通过比较输入文字的特征点与原型字典中各类原型的状态,得到输入文字与各类原型的相似度,具有最大相似度的文字类作为输入手写体文字的识别结果,得到一个字符级别的MRF识别器;步骤S3:构建结构化MRF识别器,进一步地,创建一个接口来构建结构化的MRF,得到一元特征均值向量:训练模型的特征点的平均坐标。每个字符所有笔画连接到一个笔画以得到笔画数独立性。在特征点上单击鼠标右键切入特征点的字符(character)模式。一个鼠标左键点击,将在特征点连接两个自由基(radical)。通过此方法可将字符模型分为几部分。通过分解归一化处理将每一部分登记在自由基字典中,同时可以将相同的自由基归为同一类;步骤S4:将所有字符MRF模型分解登记,使训练模型与字符MRF同步分解到自由基水平。从自由基训练模型的包围盒中得到均值包围盒(mean bounding box)。不同字符中分解出来的自由基可能有不同的大小和位置,将这些自由基归一化,然后用归一化的自由基模型训练自由基MRF模型。通过归一化均值向量和协方差矩阵的均值包围盒,我们设置自由基MRF模型为字符模型;步骤S5:聚类不同大小和位置的每一个自由基。每一个自由基MRF来自不同字符类中的自由基模式,因而大小位置不同。聚集不同尺寸的每个自由基为不同组别,分离自由基为多个类别。最优化分组数量;步骤S6:通过VQ技术对字典进行压缩,在MRF识别器中,存在众多相同一元和二元特征。对于一元和二元特征,每一个均值向量有两个参数元素,每一个协方差矩阵有四个参数元素每个状态有三个转移概率即有三个参数元素。将一元和二元特征的均值向量和协方差矩阵参数元素作为一个组合。表示每个状态的三个转移概率的三个参数元素设为另一个组合。将参数组合聚类为不同组,将共享相同参数集的组设为组中心。通过存储组索引和中心参数,对识别器进行压缩。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海新同惠自动化系统有限公司,未经上海新同惠自动化系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610898064.7/,转载请声明来源钻瓜专利网。
- 上一篇:可转换成床的座位单元
- 下一篇:包括床垫覆盖物和多层罩的床垫组件