[发明专利]基于精细字符分割的场景文本识别方法在审
申请号: | 202110276064.4 | 申请日: | 2021-03-15 |
公开(公告)号: | CN113065561A | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 刘义江 | 申请(专利权)人: | 国网河北省电力有限公司;国网河北省电力有限公司雄安新区供电公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/62;G06N3/04 |
代理公司: | 石家庄新世纪专利商标事务所有限公司 13100 | 代理人: | 董金国;黄敬霞 |
地址: | 050022 *** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 精细 字符 分割 场景 文本 识别 方法 | ||
本发明属于文本识别领域,涉及一种基于精细字符分割的场景文本识别方法,由处理器执行实现:接收规定尺寸的包含场景文本的输入图片;使用场景文本识别网络中基于全连接结构的字符分割网络将所述输入图片处理为同尺寸的文本分割图,所述文本分割图包含出入图片在各像素的字符分布特征信息;使用场景文本识别网络中的基于注意力机制的文本识别网络根据所述文本分割图获得所述输入图片的文本识别结果。
技术领域
本发明属于文本识别领域,具体涉及一种采用精细字符分割文本图像进而实现场景文本识别的方法。
背景技术
场景文本识别(Scene Text Recognition,STR)是计算机视觉领域的一个重要技术问题,它的任务是识别自然场景图片中的文字信息。自然场景图片中的文字识别,其难度远大于扫描文档图像中的文字识别,因为它的文字展现形式极其丰富。由于场景文本识别存在巨大的应用价值,近年来在工业界和学术界引起很多人的研究和探索。现有技术对背景简单的水平文本具有较好的识别效果,然而在真实场景中,由于场景中光照、遮挡等环境因素,拍照设备、角度等人为因素以及文本本身弯曲、倾斜、艺术字等实际因素影响,现有技术的场景文本识别方法难以解决。
现有的场景文本识别方法在解码阶段采用基于注意力机制的解码器,从而能够自动关注到图片中的字符区域。这些方法能够有效地提高场景文本识别模型的准确率,但是由于场景图片过于嘈杂,经常会出现“注意力漂移”等问题,从而降低了文本识别的准确率。
发明内容
为解决背景信息嘈杂图片的场景文本识别,本发明旨在提供一种基于精细字符分割的场景文本识别方法,该方法能够在背景信息嘈杂图片中有效处理弯曲、倾斜等不规则文本的识别问题。
本发明提供技术方案是一种基于精细字符分割的场景文本识别方法,由处理器执行程序指令实现,该方法包括:
接收规定尺寸的包含场景文本的输入图片;
使用场景文本识别网络中基于全连接结构的字符分割网络将所述输入图片处理为同尺寸的文本分割图,所述文本分割图包含出入图片在各像素的字符分布特征信息;
使用场景文本识别网络中的基于注意力机制的文本识别网络根据所述文本分割图获得所述输入图片的文本识别结果。
优选的,所述字符分割网络为基于ResNet的全连接网络。
优选的,所述字符分割网络在输出前将其下采样阶段最下层的若干输出特征图通过上采样为与输出等尺寸的特征图并于其最上层的输出特征图进行融合,并以融合结果输出。
优选的,所述文本识别网络获得所述输入图片的文本识别结果的方法包括:通过一特征提取器获得所述文本分割图的特征图V,然后使用基于注意力机制的编解码结构对所述特征图V进行识别。
优选的,所述特征图V包含沿所述输入图片文字延展方向的最大池化后的特征向量。
优选的,所述基于注意力机制的编解码结构包括:由两层的LSTM组成的编码器,以及,由两层的LSTM组成的解码器;所述编码器与所述解码器不共享参数。进一步优选的,所述编码器在每个时间步长接收一列的特征图V,然后沿与文字延伸方向正交的方向进行最大池化;所述编码器,在与特征图V的宽相同的W步之后,LSTM第二层的最终隐藏状态向所述解码器输出;所述最终隐藏状态被视为输入图像的固定尺寸表示,体现输入图片的整体特征。进一步优选的,所述解码器在其时间步骤0接收所述编码器输出的整体特征。然后在步骤1将开始令牌,即编码固定的“START”令牌,输入到LSTM。从步骤2开始,上一步的输出被馈送回到LSTM输入直到其收到结束令牌,即编码固定的“END”令牌后终止并输出。
优选的,所述文本识别网络实现注意力机制的方法在于,根据以下数学模型考虑文本分割图相邻区域的信息,并参与所述解码器解码:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网河北省电力有限公司;国网河北省电力有限公司雄安新区供电公司,未经国网河北省电力有限公司;国网河北省电力有限公司雄安新区供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110276064.4/2.html,转载请声明来源钻瓜专利网。