[发明专利]一种用于手写汉字识别的用户书写风格自适应方法有效
申请号: | 200910042117.5 | 申请日: | 2009-08-25 |
公开(公告)号: | CN101630368A | 公开(公告)日: | 2010-01-20 |
发明(设计)人: | 金连文;黄志斌 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06K9/66 | 分类号: | G06K9/66 |
代理公司: | 广州粤高专利商标代理有限公司 | 代理人: | 何淑珍 |
地址: | 510640广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 手写 汉字 识别 用户 书写 风格 自适应 方法 | ||
技术领域
本发明属于利用计算机处理设备识别手写文字图像的技术领域,特别是涉及一种用于手写汉字识别的书写自适应方法。
技术背景
手写汉字识别一般是指用户通过手写输入设备(比如:手写板、触摸屏、鼠标等)书写汉字,同时计算机将手写输入设备采集到的汉字书写轨迹转换为相应的汉字机器内码的识别技术。传统的手写识别技术通常所采用的输入方式为单字符识别,即书写一个汉字识别一个汉字。使用的识别引擎与用户无关,即识别引擎事先通过大量的训练样本训练出来,对于不同用户,识别引擎使用的模型及参数都是一样的,事先由开发人员训练并设置好。由于采用了大数据量的训练样本,所以识别引擎能满足书写规范的用户的识别准确率要求。但是不同用户的书写风格差异很大,每个用户书写风格除了存在共性外,往往还包括自己个性化的地方,与用户无关的识别引擎针对这类用户时书写汉字时,识别准确率往往不尽人意,有待改进。
发明内容
本发明的目的在于克服传统的识别引擎无法适应特定用户的书写风格的不足,提供一种让识别引擎能动态适应用户书写风格从而提高识别率的方法。
本发明采用的技术方案为:
一种用于手写汉字识别的用户书写风格自适应方法,其步骤如下:
(1)、选取用户少量的增量学习样本;
(2)、动态更新模板均值;
(3)、基于ILDA的增量学习,通过采用增量的线性判决分析ILDA方法进行增量学习;
(4)、动态更新识别分类器;
所述步骤(1)为选择用户少量的样本,用于更新模板及识别引擎。用户样本的选择应能充分体现用户的书写风格。设增量学习样本均值为总个数为L。原始样本总个数为N,原始样本总均值为则新的样本总均值为
所述步骤(2)利用增量学习样本动态更新模板均值,其步骤包括:
(A)、恢复模板样本均值。当前识别引擎使用的模板都是经过线性判决分析LDA变换,LDA变换的目的是使各个汉字类别能最大程度的分开,从而提高识别率。但是在动态更新模板过程中,需要使用到原始模板均值。为此需要对汉字模板进行逆LDA变换。设LDA变换矩阵为Wlda,其逆矩阵为类别c经过LDA变换后的模板为原始模板均值为通过以下公式可求得原始模板均值。
(B)、增量学习样本特征提取。对于每一个样本,都采用八方向特征提取方法对增量学习样本提取其八方向特征。
(C)、更新模板均值。设样本类别数为p,每一类别经过LDA逆变换后的原始模板均值为原始样本个数为nc,增量学习样本的均值为增量学习样本的个数为lc,则新的样本均值为可由以下公式求得:
其中r为增量学习样本占原始样本总个数的百分比;
所述步骤(3)利用增量学习样本,更新LDA模型。LDA变换矩阵由类间散度矩阵Sb与类内散度矩阵Sw决定。由于引入了增量学习样本,Sb与Sw都发生了变化。所以需要重新计算出Sb与Sw。其步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910042117.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:网络实时定位的方法
- 下一篇:一种链路故障恢复的方法、系统和装置