[发明专利]一种基于光学字符识别技术的中文字符识别方法有效

专利信息
申请号: 201410396208.X 申请日: 2014-08-12
公开(公告)号: CN104156706A 公开(公告)日: 2014-11-19
发明(设计)人: 吴克河;崔文超;陈飞;乔俊峰 申请(专利权)人: 华北电力大学句容研究中心
主分类号: G06K9/00 分类号: G06K9/00;G06K9/34
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 王云
地址: 212400 江苏省*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 光学 字符 识别 技术 中文 方法
【权利要求书】:

1.一种基于光学字符识别技术的中文字符识别方法,其特征在于包括以下步骤:

(1)接收包含中文字符的灰度文本图像数据;

(2)根据图像的灰度值对图像进行分级,按照灰度级别和连通区域构造树状结构,并基于树状结构对图像进行区域切分,得到单字图像;

(3)采用基于像素点分布特征的区域增长算法对单字图像进行二值化,得到待识别字;

(4)对待识别字进行识别得到识别结果。

2.根据权利要求1所述的基于光学字符识别技术的中文字符识别方法,其特征在于:

所述步骤(2)根据图像的灰度值对图像进行分级,按照灰度级别和连通区域构造树状结构,并基于树状结构对图像进行区域切分,得到单字图像的具体步骤为:

(2.1)将图像的灰度值分为n级,其中2<n<256;

(2.2)根据灰度级别把整个图像分成n层的树状结构,树状结构中的每一个节点代表一个连通域,每一层对应的一个灰度级别;

(2.3)根据树状结构中连通域的数目随灰度级别的变化情况,在连通域的数目由减少变增加的转折点对应的灰度级别所在的层次上进行切分操作;

(2.4)根据平均字宽,通过投影分析法对多个字符形成的连通域进行切割。

3.根据权利要求2所述的基于光学字符识别技术的中文字符识别方法,其特征在于:

所述步骤(2.2)中根据灰度级别把整个图像分成n层的树状结构的步骤包括:

(a)搜索所有的像素点,具有相同灰度级别Gi的邻接点构成连通域,并将该连通域的灰度级别设置为Gi,其中i=0,1,2,…,n-1;

(b)所有G0级灰度的连通域作为第0层的节点构成树结构的最底层;

(c)采用自下向上的方法依次构造树结构的第i层,其中i=1,2,…,n-2,在树的第i层,如果i-1层的节点所代表的连通域不和任何Gi级灰度的连通域相邻,那么直接将该节点复制,作为第i层的节点,复制节点是i-1层被复制节点的父节点;如果i-1层的节点所代表的连通域和Gi级灰度的连通域相邻,那么将这些相邻的灰度级别小于等于Gi的连通域合并成一个新的连通域,并将新连通域的灰度界别设置为Gi,作为第i层的节点,同时这个节点也是所有参与这个新连通域合并的i-1层节点的父节点;与i-1层的节点不相邻的Gi灰度的连通域则直接作为第i层的节点,该节点是叶节点;

(d)构造树结构的根节点,在根节点所有的像素点都属于同一个连通域,树结构收缩至唯一的根节点。

4.根据权利要求2所述的基于光学字符识别技术的中文字符识别方法,其特征在于:步骤(2.1)中将图像的灰度值分为20级。

5.根据权利要求1所述的基于光学字符识别技术的中文字符识别方法,其特征在于:

所述步骤(3)中采用基于像素点分布特征的区域增长算法对单字图像进行二值化的具体步骤包括:

(3.1)将图像中灰度值小于等于LT的点标记为前景点,灰度值大于等于HT的点标记为背景点,其中LT=T*r,HT=255-(255-T)*r,T为切分操作所在层次的最大灰度值,r是经验值,r=0.6;

(3.2)将具有前景区域局部极值特征的点且灰度小于阈值Tb的点选为种子原点并且标记为前景点,将具有背景区域局部极值特征的点且灰度大于阈值Tw的点选为种子原点并且标记为背景点,其中Tb大于T,Tw小于T;

(3.3)从种子原点开始,在它所属的区域中选取距离种子原点最小的所有像素点,并把它们标识为已识别的点,然后重新计算距离已识别点最近的点,这样迭代下去,直到找到所有的像素点,得到初步二值化结果;

(3.4)对图像中的孤立的笔画或者黑色区域,进行噪音去除处理。

6.根据权利要求1所述的基于光学字符识别技术的中文字符识别方法,其特征在于:

所述步骤(4)中对待识别字进行识别得到识别结果的具体步骤包括:

(4.1)将待识别字通过单字识别器进行识别,得到候选字集,若只有一个候选字则将其作为识别结果,结束,否则至步骤4.2;

(4.2)根据相似字类别字典判定第一、第二候选字是否是一对相似字,如果是并且符合进入相似字再识别的条件,则按其差异的部分空间所属类别进入相应的类别识别器提取不同的类别特征进行识别得到识别结果;若第一、第二候选字不是相似字或者不符合进入相似字再识别的条件,则将第一候选字作为识别结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华北电力大学句容研究中心,未经华北电力大学句容研究中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410396208.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top