[发明专利]一种基于改进距离核主成分分析的手写体数字识别方法有效
申请号: | 201210592487.8 | 申请日: | 2012-12-30 |
公开(公告)号: | CN103093235A | 公开(公告)日: | 2013-05-08 |
发明(设计)人: | 于乃功;焦盼娜;林佳;阮晓钢;李勇;许锋;王琳;陈焕朝;徐丽 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 楼艮基 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 距离 成分 分析 手写体 数字 识别 方法 | ||
技术领域
本发明涉及字符识别技术领域,尤其涉及一种基于改进的距离核主成分分析的手写体数字识别方法,属于模式识别领域。
背景技术
手写体数字识别具有非常广泛的应用,如银行,邮局,税务等。虽然人们在文字识别的研究中已取得很多成就,但距真正意义上的应用还有一定的距离。数字识别的关键在于特征提取,选取的特征要具有可分辨性、可靠性、独立性。
目前,数字特征提取的方法有很多,主要可以分为统计特征方法和结构特征方法。主成分分析(Principal Component Analysis,PCA)是模式识别领域中一种经典的特征抽取方法,但是在非线性数据分布情况下该方法不够理想,由于真实的数字图像中存在着光照、旋转等非线性变化,主成分分析作为一种线性方法不能很好的描述这些非线性特征。提出将核方法推广到核空间的核主成分分析(KPCA)方法可以很好的解决非线性问题并且KPCA在人脸识别等方面取得了非常好的成果。但对于大样本的手写体数字来说,由于KPCA计算过程中的复杂性而面临巨大的计算代价,这就限制了它的实用性。
基于此,有必要改进KPCA,并可以将其应用在实际的手写体数字识别系统中。为了解决KPCA处理大样本问题时计算代价大的问题,首先将距离核函数作为KPCA的核函数,因为在计算核矩阵的过程中,该函数不需要进行复杂的高维运算,因而不会增加时间的耗费。与此同时,采用基于K均值聚类的方法对映射到核特征空间的训练样本进行子集划分,划分为若干子集,并将每个子集在特征空间中的协方差矩阵用一些特征向量近似表示,基于这种近似表示,使KPCA在求解过程,只需对一个阶数等于这些特征向量数目之和的核矩阵进行特征值分解即可,这种方法简单有效。
发明内容
本发明的手写体数字识别方法是为了提高手写体数字识别率,解决标准核成分分析应用在大样本数据集上计算复杂度高的问题,提出一种基于改进的距离核主成分分析的数字特征提取方法,并且利用支持向量机(SVM)作为分类器,以达到较高的手写体数字识别准确率。
为了解决上述技术问题,本发明在计算机中按以下技术方案予以实现:
(1)将手写体数字样本以特征向量的形式输入计算机。采用MNIST数据库,把数据库中样本进行解压缩,得到单个图像样本的形式,将这些样本进行二值化预处理后以特征向量的形式输入计算机。
(2)选择距离核函数,利用非线性映射Φ将原始空间样本映射到核特征空间F中;
(a)选择一种新的可用于核学习方法的核函数,距离核函数:
K(xi,xj)=<Φ(xi),Φ(xj)>=-c||xi-xj||d (1)
其中参数0<d≤2,c为常数,当d=2时,核KPCA等于PCA。
(b)选择核函数之后要确定核函数的参数c和d的值,由于参数的选择没有严格的理论依据,采用多次实验验证的方法来选择最优参数,将样本值代入核函数计算,这样就将原始空间样本映射到核特征空间F中;
(c)对每一个训练样本的映射样本数据进行标准化处理,得到:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210592487.8/2.html,转载请声明来源钻瓜专利网。