[发明专利]一种基于分类器集成的手写维文字符识别方法有效
申请号: | 201210055726.6 | 申请日: | 2012-03-05 |
公开(公告)号: | CN102622610A | 公开(公告)日: | 2012-08-01 |
发明(设计)人: | 李静;卢朝阳;戴笑来;许亚美 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/20 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 程晓霞;王品华 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分类 集成 手写 维文 字符 识别 方法 | ||
技术领域
本发明属于模式识别中的文字识别技术领域,主要涉及手写体识别领域,特别是涉及手写维文字符识别领域,具体是一种基于分类器集成的手写维文字符识别方法,用于在移动平台即手机上实现维文字符的手写输入。
背景技术
维吾尔文是新疆维吾尔民族交际和工作的主要文字之一,属阿尔泰语系突厥语族,是一种粘连的拼音文字。现行的维吾尔文共有32个字母,其中有8个元音字母,24个辅音字母,根据在单词中的位置不同,每个字母有前连式、后连式、双连式、单立式等2~8种书写形式,总共有128个字符。从形体上看,维吾尔文字符采用自右向左、自上向下的手写方式,沿着一条水平线即基线书写的部分称为主体部分,在维文识别过程中用主体部分来辨别字符的主要形态,除基线以外的符号、点等称为附加部分,附加部分是区分相似字符的依据。
维吾尔文由维吾尔单词组成,每个单词由几个到十几个维吾尔字符组成,字符沿着基线相连书写。研究维吾尔文字符的处理和识别有助于提升新疆少数民族地区的文化交流、信息交流和科技经济的发展。在市场上,维吾尔文印刷体文字识别系统已经广泛的应用于维吾尔文信息处理的各个领域,如办公自动化、出版印刷业等多种方面。但是,维吾尔文手写技术的研究还处于初步探索阶段。目前,手写维文识别方面的研究和成果均较少,在中国申请的专利也较少,中国专利申请号2010102041177.5的发明申请是西安电子科技大学卢朝阳等提出的一种手写体维吾尔文字符识别方法,该申请提出了128类的手写体维文字符识别的方法,其首先提出了一种识别手写维文字符的方法,奠定了手写维文字符识别的基础,该方法针对128类维文字符先建立维文字符部件库和部件字典,是维文字符特征提取和识别的基础,然后对单个部件提取时分方向特征,最后以加权距离融合函数综合各部件特征,用以识别整个字符。该发明申请首先完整的建立了一种手写维文字符识别的方法,开创了手写维文字符识别的领域,但其手写维文字符识别算法的最高识别率为84.23%,识别率不高。
目前,128类的维文单字符识别的研究还较少,识别率普遍较低。如何将维吾尔文字符特定的书写规则与分类识别算法有效结合起来,以及将不同分类器集成,是手写体维文识别一个亟待解决的问题。
发明内容
本发明的目的是克服现有技术存在的识别率较低的技术问题,提供一种识别率较高和识别时间较短的基于分类器集成的手写维文字符识别方法,该方法采用不同的分类器进行分类,并对不同的分类器进行集成,与使用单分类器的方法相比,其平均识别率有了显著的提高。
为实现发明目的,本发明采用的技术方案说明如下:
本发明是一种基于分类器集成的手写维文字符识别方法:对手写维文字符的识别过程包括:
步骤1对采集到的手写维文字符进行预处理,去除采集维文字符过程中附加的噪声,得到规范化的维文字符;
步骤2提取维文字符的特征向量,将规范化的维文字符从对象空间映射到特征空间,得到维文字符的方向线素,即维文字符的特征向量;
步骤3分别使用MQDF(Modified Quadratic Discriminant Function,修正的二次分类函数)分类器和BP(Back Propagation,后向传播)神经网络分类器对维文字符特征向量分类识别,得到分类识别结果,MQDF分类器的分类结果是置信值集1和BP神经网络分类器的分类结果是置信值集2;
步骤4对两种分类识别的结果置信值集1和置信值集2进行集成,计算128个维文字符中每个候选字符的两个置信值的加权和,确定最大的加权和值,得到最终的分类识别结果。
本发明采用一种统计的方法,首先对维文字符进行预处理,去除由于手写所带来的噪声,接着提取维文字符的特征向量,并将特征向量分别输入MQDF分类器和BP神经网络分类器进行分类,最后对分类识别的结果集成,得到最终的识别结果并给出候选集。
本发明的实现还在于:手写维文字符预处理过程包括:
1.1裁剪手写维文字符图像,去除维文字符图像中不包含文字轨迹点的区域,留下包含文字轨迹点的区域;
1.2对裁剪后的维文字符进行归一化处理,将大小不同的维文字符图像归一化为大小相同的图像;
1.3对归一化后的维文字符图像进行轨迹点重采样,每隔几个点进行采样,若原图像中存在象素点比较紧密而归一化处理后象素点比较稀疏的地方则补象素点;
1.4对重采样后的维文字符图像进行滤波,得到规范化的维文字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210055726.6/2.html,转载请声明来源钻瓜专利网。