[发明专利]不规则文字的识别方法、装置、计算机设备及存储介质有效
申请号: | 202010413346.X | 申请日: | 2020-05-15 |
公开(公告)号: | CN111598087B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 熊娇;刘雨桐;石强;王国勋 | 申请(专利权)人: | 华润数字科技有限公司 |
主分类号: | G06V30/146 | 分类号: | G06V30/146;G06V30/148;G06V10/82;G06V30/19;G06N3/045;G06N3/0455;G06N3/048;G06N3/0442;G06N3/0464;G06N3/084 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 周翀 |
地址: | 518000 广东省深圳市福田区梅林街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 不规则 文字 识别 方法 装置 计算机 设备 存储 介质 | ||
本发明公开了一种不规则文字的识别方法、装置、计算机设备及存储介质,其方法包括:对不规则文字的初始文本图像进行分解处理得到多块小图像;对每块小图像执行MORN矫正流程,得到更新文本图像后将其再次执行MORN矫正流程,并判断本次得到的更新文本图像与上一次得到的更新文本图像是否相同,若相同则将本次得到的更新文本图像作为规则文本图像,否则继续执行MORN矫正流程直至得到规则文本图像;将规则文本图像输入RBAN网络并输出两个解码器预测结果;选择log‑softmax得分之和高的解码器预测结果作为最终识别结果。该方法针对不规则文字图像利用MORN方法进行多次矫正得到规则文字图像,再把规则文字图像输入RBAN网络中进行文字识别,提高了对不规则文字识别的识别率。
技术领域
本发明涉及数字图像处理技术领域,尤其涉及一种不规则文字的识别方法、装置、计算机设备及存储介质。
背景技术
随着智能化的应用,大众和企业对图像或视频中文字识别的需求越来越多,但自然场景文本识别的难度极高,其原因在于文本的布局可能存在弯曲、褶皱、换向等问题,其中的文字也可能存在字体多样、字号字颜色不一的问题。
经典的基于深度学习的文字识别方法采用卷积循环网络(CRNN)模型,其以卷积特征作为输入,通过双向长短期记忆网络(BiLSTM)进行序列处理,可以使得文字识别的效率大幅提升;但是其只在规则和规范的文字上识别准确率较好,在不规则文字上应用十分有限。
现有技术中,为解决对不规则文字的识别,各种基于深度神经网络的文字识别模型也在不断的迭代和发展;其中,多目标矫正注意力网络(MORAN)由矫正子网络MORN(multi-object rectificationnetwork,简称MORN)和识别子网络ASRN(attention-basedsequence network,简称ASRN)组成,MORN中设计了一种新颖的像素级弱监督学习机制用于不规则文本的形状纠正,大大降低了对不规则文本的识别难度。
但是,该多目标矫正注意力网络仅仅对变形角度较小的不规则文字的识别效果较好,当文字变形角度较大时,识别率仍然有待提高。
发明内容
本发明的目的是提供一种不规则文字的识别方法、装置、计算机设备及存储介质,旨在解决现有技术对不规则文字的识别率不高的问题。
第一方面,本发明实施例提供一种不规则文字的识别方法,包括:
通过MORN矫正网络中的卷积对不规则文字的初始文本图像进行分解处理得到多块小图像;
对每块小图像执行MORN矫正流程,得到更新文本图像;
其中,所述MORN矫正流程包括:对每块小图像进行回归偏移量计算,获得偏移量并对所述偏移量进行平滑操作;然后在所述初始文本图像上进行采样,将采样点与所述偏移量进行映射操作,得到更新文本图像;
将所述更新文本图像再次执行MORN矫正流程,并判断本次得到的更新文本图像与上一次执行MORN矫正流程得到的更新文本图像是否相同,若相同则将本次得到的更新文本图像作为规则文本图像,否则继续MORN执行矫正流程直至得到规则文本图像;
将所述规则文本图像输入预设的RBAN网络,并输出两个解码器预测结果;
其中,所述RBAN网络包括一个编码器和一个带注意力机制的双向解码器;
选择log-softmax得分之和高的解码器预测结果,并作为最终识别结果。
第二方面,本发明实施例还提供一种不规则文字的识别装置,其包括:
获取单元,用于通过MORN矫正网络中的卷积对不规则文字的初始文本图像进行分解处理得到多块小图像;
第一矫正单元,用于对每块小图像执行MORN矫正流程,得到更新文本图像;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华润数字科技有限公司,未经华润数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010413346.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:三自由度展腿机构
- 下一篇:多特征融合辅助检测肺部磨玻璃影结节系统及介质