[发明专利]一种文字识别方法及其系统有效
申请号: | 201510738664.2 | 申请日: | 2015-11-02 |
公开(公告)号: | CN105260751B | 公开(公告)日: | 2019-02-26 |
发明(设计)人: | 冯清亮 | 申请(专利权)人: | 冯清亮 |
主分类号: | G06K9/68 | 分类号: | G06K9/68 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫 |
地址: | 510000 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文字 识别 方法 及其 系统 | ||
本发明公开了文字识别方法及其系统,所述文字识别方法步骤包括输入待识别区域图像并进行二值化处理;提取待识别区域笔划特征;提取各笔划的近邻笔划及其相对位置关系特征;部件匹配;字匹配;输出待识别区域字匹配结果。所述文字识别系统包括图像采集模块、图像处理和文字识别模块和文字输出模块。本发明能对印刷体、较为工整的手写体字精准地识别,除了要求手写体字不能太潦草以致不能看出其文字结构特征外没有其它限制,能够高速、大批量地处理印刷体和手写体文稿、表格和票据等。
技术领域
本发明涉及文字识别领域,尤其涉及一种文字识别方法及其系统。
背景技术
文字识别技术是一项用于将文字信息自动输入电脑、手机及其它信息处理系统的智能化技术。文字识别技术分为联机识别和脱机识别两大类,其中联机识别为即时将手写文字录入到信息处理系统中,如通常见到的通过手写笔将文字在线录入到信息处理系统中;而脱机识别技术包括印刷体字识别和手写体字识别,它是一种将已经印刷或者书写到纸或者其它载体上的文字进行自动识别和录入的技术。
目前印刷体字的自动识别技术,其产品和方法有很多,如我国的汉王、清华紫光等。而在手写体字的自动识别方面,由于手写文字的不规范导致其识别难度较大。目前对手写体字的识别已经出现了如申请号为CN02125949,申请名称为《一种基于结构模型的汉字识别方法》;申请号为CN201010223263,申请名称为《自适应脱机手写识别方法和装置》;申请号为CN90110009,申请名称为《脱机手写汉字识别系统及其识别方法》等技术。
上述手写体字的识别技术存在着以下不足:
首先,手写体字联机识别技术的识别速度受限于人工手写速度,速度较慢,不适用于大批量处理的场合;
其次印刷体字的识别技术因其识别方法所限,识别率有待提高;
更为突出的是,手写体文字的识别仍然沿用印刷体字的识别方法,即先做行字图像分割,然后提取单字特征进行识别。但是由于手写体文字缺乏规范,对行字图像分割可能造成无可弥补的识别误差;同时,常用的统计法、投影法和网格法等文字识别方法也无法做到精准识别,这些方法的识别准确率难于进一步提高。
发明内容
本发明基于文字结构的稳定特征,提出一种文字识别的方法及其系统,用于脱机或联机地自动识别印刷体字和手写体字。
本发明一种文字识别方法,包括以下步骤:
S1:输入待识别区域图像并进行二值化处理;
S2:提取待识别区域笔划特征;
S3:提取各笔划的近邻笔划及其相对位置关系特征;
S4:部件匹配;
S5:字匹配;
S6:输出待识别区域字匹配结果。
进一步地,步骤S2中所述提取笔划特征的方法,是先找出待识别区域中各笔划图像点的最长方向,并以其为主方向,连接所述主方向上的各笔划图像点成为直线段连线,连接相邻的主方向相同的直线段连线就形成了主线段区域,从而找出该笔划特征。
进一步地,步骤S3中所述提取各笔划的近邻笔划,是先找出该笔划的周边附近的笔划并判断其相对位置关系,再从这些相对位置关系中找出与该笔划各个方向上的最邻近的笔划。
进一步地,步骤S4中所述的部件匹配,是以某待识别笔划为中心笔划,与部件特征库中的部件逐一匹配;匹配时是将待识别的中心笔划视做与部件特征库部件的首笔划相重叠,然后比较二者的近邻笔划走向特征和相对位置关系特征,找出它们的对应匹配笔划;然后再分别以这些匹配的笔划为中心笔划,继续比较它们的近邻笔划的走向特征和相对位置关系特征,进一步找出其它的对应匹配笔划;如此不断比较下去,直到全部比较完部件特征库部件的所有笔划并找出各自的对应匹配笔划关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于冯清亮,未经冯清亮许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510738664.2/2.html,转载请声明来源钻瓜专利网。