[发明专利]一种基于非负矩阵分解的离线中文字符识别方法无效

专利信息
申请号: 201110005677.0 申请日: 2011-01-12
公开(公告)号: CN102073871A 公开(公告)日: 2011-05-25
发明(设计)人: 谭军 申请(专利权)人: 广州市伟时信息系统技术有限公司;谭军
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 广州知友专利商标代理有限公司 44104 代理人: 宣国华
地址: 510275 广东省广州*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 矩阵 分解 离线 中文 字符 识别 方法
【说明书】:

技术领域

发明涉及一种字符图像处理方法,具体来说涉及一种基于非负矩阵分解的离线中文字符识别方法。

背景技术

字符识别是利用计算机图形图像处理技术,并结合概率统计的知识,将含字符图像在字符编码表中的位置,最后确定是什么文字,并进行交互处理的理论、方法和技术。它涉及到计算机图形学、图像处理、模式识别、计算机视觉、概率统计、语言学等多个领域,成为研究数据表示、数据处理、决策分析等一系列问题的综合技术。模式识别技术能够把科学数据,包括通过设备获得的数据、图像或是运算中涉及、产生的数字信息转化为直观的、确定的物理对象或者物理量表现在研究者面前,使得他们能够被观察、模拟和计算。在字符识别方面,与本发明最相关的是Jain在《利用可变形模板字符的表达和识别》(Representation andrecognition of character digits using deformable templates)一文提出了将字符的特征模板化的方法:将字符集中的每个字符抽取特征构成模板,并充分考虑可变因素,建立可变模板,通过概率分布方法,对每个字符进行匹配,计算出最大概率。非负矩阵分解方法是目前一种主流的图像稀疏化分解方法,Lee和Seung在1999年《nature》杂志上发表了《通过非负矩阵分解了解物体的局部特征》(Learning theparts of objects by non-negative matrix factorization)一文,阐述了如何通过非负矩阵分解方法来分解图像,使得图像稀疏化,以获得图像的局部特征。

到目前为止,字符识别都是通过对字符集中所有字符比较来实现的,这种方法对于英文(A~Z)和数字(0~9)来说,字符个数分别是26个和10个,比对过程比较简单。而对于复杂的汉字,字符数目巨大,一般中文应用系统需13000字;大型中文应用系统需23000字;政府机关等专用中文应用系统需48000字;图书馆等特殊中文应用系统需100000字以上。目前常用字库采用的是GB2312,它包括6743个汉字,在日常应用中已不够用,准备推广的GB13000.1-1993包括21000个汉字,这样通过每个字符比对的方法来识别文字就大大降低了字符识别的时效性。

发明内容

本发明的目的在于提供一种基于非负矩阵分解的离线中文字符识别方法,本方法利用汉字的形状特征和部首特性,通过汉字部首分解的方法实现更高效率的字符识别。

本发明的目的可通过以下的技术措施来实现:一种基于非负矩阵分解的离线中文字符识别方法,包括如下步骤:

(a)对训练集字符图像中的每个字符图像进行预处理,使字符位于字符图像的居中位置;

(b)对步骤(a)处理后的训练集字符图像进行字符集向量非负矩阵分解,获得部首基;

(c)对需要识别的测试集字符图像中的每个字符图像进行预处理,使字符位于字符图像的居中位置;

(d)将步骤(c)处理后的测试集字符图像在部首基上做投影,并获得投影系数;

(e)根据投影系数识别所述测试集字符图像中每个字符图像中的字符所对应的文字。

所述的步骤(a)和(e)中对字符图像进行预处理的过程为:

(a1)获取所述字符图像的外框参数和所述字符的外框参数;所述字符图像和字符的外框参数包括高度和宽度;

(a2)根据(a1)所得的参数值,计算所述字符在字符图像的居中位置参数,所述居中位置参数为:当所述字符位于居中位置时,所述字符图像的外框与所述字符的外框之间的间距;

(a3)根据(a1)和(a2)所得的参数值,将字符位移到所述字符图像的居中位置。

所述步骤(a1)中字符图像的外框的高度和宽度为所述字符图像的矩阵的高度Hi和宽度Wi,所述字符图像的矩阵是指构成所述字符图像的像素在整幅训练集/测试集图像中的像素坐标值所构成的矩阵。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市伟时信息系统技术有限公司;谭军,未经广州市伟时信息系统技术有限公司;谭军许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110005677.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top