[发明专利]一种无切分的脱机手写汉字文本识别方法在审
申请号: | 201810239934.9 | 申请日: | 2018-03-22 |
公开(公告)号: | CN108509881A | 公开(公告)日: | 2018-09-07 |
发明(设计)人: | 应自炉;陈鹏飞;朱健菲;陈俊娟;甘俊英;翟懿奎 | 申请(专利权)人: | 五邑大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 广州市红荔专利代理有限公司 44214 | 代理人: | 吴伟文 |
地址: | 529020 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卷积神经网络 构建 预处理 循环神经网络 汉字 空间变换 文本识别 文本行 迭代算法 概率分布 规则搜索 模型参数 模型框架 模型提取 深度特征 输出序列 贪婪搜索 网络模型 文本图像 校正处理 偏移 分类器 鲁棒性 准确率 求解 字典 标签 文本 优化 网络 联合 | ||
本发明涉及一种无切分的脱机手写汉字文本识别方法,包括S1)对脱机手写汉字文本图像进行预处理;S2)构建空间变换网络模型;S3)构建深度卷积神经网络模型;S4)通过深度卷积神经网络模型提取的深度特征构建循环神经网络模型;S5)通过分类器CTC输出序列征标签的概率分布;S6)采用贪婪搜索和基于字典规则搜索得到文本最终的识别结果。本发明通过采用空间变换网络、深度卷积神经网络和循环神经网络相结合的模型,能够针对偏移较大文本行进行校正处理和无切分的识别,提高复杂文本行识别的准确性和鲁棒性;整个模型框架基于迭代算法求解,不需要复杂的过切分预处理,能够较好地减少过切分方法带来的损失,以及能够联合地优化整个模型参数,提高识别的准确率。
技术领域
本发明涉及一种文本识别技术领域,尤其是一种无切分的脱机手写汉字文本识别方法。
背景技术
脱机手写体文本识别是目前文字识别领域的难题之一,与联机手写识别相比,缺少必要的的字符位置和轨迹信息,其中,后者可以根据字符位置和书写经验来近似获得,因此,字符位置的判定对脱机手写体文本识别效率的影响甚大,由于手写体字符书写随意性导致相邻字符之间的位置关系复杂,造成脱机手写文本中的字符位置定位要比印刷体字符定位困难很多,尤其是行倾斜、不规则行片段以及粘连字符的文本中的字符位置判断。
目前,针对手写文本行的识别问题,传统方法主要是基于字符切分和单字符识别的解决方案,字符切分可以将手写汉字文本行切分为基本手写字符序列,然后将切分后的单字符送入单字符的分类器,得到整行的识别结果,常用的切分技术有基于统计分方法、基于字型结构切分和基于识别的汉字统计切分方法等,其中,基于统计的切分方法是根据字符的总体统计分别特征,确定字符之间的界限,判别时,以字符的平均宽度做辅助判别,统计分布特征的代表性和稳定性对切分的正确性及收敛性起到很重要的作用,该方法实用于字符间距较宽,无粘连字符的切分,并且由于手写汉字的笔画之间较为分散或者字符之间有连笔的情况出现,容易造成过度切分或者错误切分,这使得手写汉字的识别难度更大;而且针对单字符的手写汉字识别,由于汉字类别较多以及手写汉字书写的多样性,单字符手写汉字识别的难度也很大。
发明内容
针对现有技术的不足,本发明提供一种无切分的脱机手写汉字文本识别方法。
本发明的技术方案为:一种无切分的脱机手写汉字文本识别方法,包括以下步骤:
S1)、对脱机手写汉字文本图像进行预处理,预处理包括图像尺寸归一化处理、以及图像亮度值反转;
S2)、构建空间变换网络模型,通过该空间变换网络模型校正文本图像的偏移,该空间变换网络模型由定位网络、采样栅格、采样器构成;
S3)、构建深度卷积神经网络模型,通过该模型提取校正偏移文本图像的深度特征;
S4)、通过深度卷积神经网络模型提取的深度特征构建循环神经网络模型,通过该模型对深度序列特征建模;
S5)、通过联结主义时间分类器CTC输出序列特征标签的概率分布,得到初步的识别结果;
S6)、采用贪婪搜索和基于字典规则搜索得到文本最终的识别结果。
进一步的,所述的步骤S1)中,通过图像尺寸归一化处理将文本图像宽度处理为128,并通过图像亮度值反转将文本图像背景和汉字亮度进行反转,具体为:I(i,j)=255-X(i,j),其中,X(i,j)为文本图像第i行第j列像素位置对应的亮度值,I(i,j)为转后文本图像第i行第j列像素位置的亮度值。
进一步的,上述技术方案中,步骤S2)中,具体包括以下步骤:
S201)、将预处理后的文本图像输入定位网络中,计算得到仿射变换参数θ,即θ=floc(I),其中,floc(I)是一个2层的全连接网络,I为预处理后的文本行图像;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于五邑大学,未经五邑大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810239934.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种视频人物行为语义识别方法
- 下一篇:轨道泥石流检测方法和装置