[发明专利]不规则文字的识别方法、装置、计算机设备及存储介质有效
申请号: | 202010413346.X | 申请日: | 2020-05-15 |
公开(公告)号: | CN111598087B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 熊娇;刘雨桐;石强;王国勋 | 申请(专利权)人: | 华润数字科技有限公司 |
主分类号: | G06V30/146 | 分类号: | G06V30/146;G06V30/148;G06V10/82;G06V30/19;G06N3/045;G06N3/0455;G06N3/048;G06N3/0442;G06N3/0464;G06N3/084 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 周翀 |
地址: | 518000 广东省深圳市福田区梅林街*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 不规则 文字 识别 方法 装置 计算机 设备 存储 介质 | ||
1.一种不规则文字的识别方法,其特征在于,包括:
通过MORN矫正网络中的卷积对不规则文字的初始文本图像进行分解处理得到多块小图像;
对每块小图像执行MORN矫正流程,得到更新文本图像;
其中,所述MORN矫正流程包括:对每块小图像进行回归偏移量计算,获得偏移量并对所述偏移量进行平滑操作;然后在所述初始文本图像上进行采样,将采样点与所述偏移量进行映射操作,得到更新文本图像;
将所述更新文本图像再次执行MORN矫正流程,并判断本次得到的更新文本图像与上一次执行MORN矫正流程得到的更新文本图像是否相同,若相同则将本次得到的更新文本图像作为规则文本图像,否则继续执行MORN矫正流程直至得到规则文本图像;
将所述规则文本图像输入预设的RBAN网络,并输出两个解码器预测结果;
其中,所述RBAN网络包括一个编码器和一个带注意力机制的双向解码器;
选择log-softmax得分之和高的解码器预测结果,并作为最终识别结果;
按下述公式进行损失函数计算损失值,并根据损失值使用反向传播对RBAN网络中的参数进行更新:
其中y1,…,yt,…,yT表示为初始文本图像I的真实文本序列的每个字,Pltr,prtl为左至右解码器以及右至左解码器的文本预测概率分布;
所述将所述规则文本图像输入预设的RBAN网络,并输出两个解码器预测结果,包括:
将所述规则文本图像输入一个53层的残差神经网络来提取特征,其中,所述残差神经网络中每个残差模块包含了一个1x1和3x3的卷积,前两个残差模块步长为2,其余的残差模块步长变为1;
然后将提取的特征输入至BiLSTM模型,得到左至右和右至左两个方向的输出;
通过所得到的所述左至右和右至左两个方向的输出对应输入至双向解码器中的左至右解码器和右至左解码器,分别得到两个解码器预测结果。
2.根据权利要求1所述的不规则文字的识别方法,其特征在于,通过MORN矫正网络中的卷积对不规则文字的初始文本图像进行分解处理得到多块小图像,包括:
将所述初始文本图像经过一个池化层进行池化,然后经过一个卷积层进行卷积并输出多个小图像;
将每一小图像进行一次池化,然后再依次进行一次卷积和一次池化,再进行三次卷积,然后再进行一次池化,最后利用Tanh函数进行激活;
其中,所述Tanh函数计算公式为:x为向量。
3.根据权利要求1所述的不规则文字的识别方法,其特征在于,所述在所述初始文本图像上进行采样,将采样点与所述偏移量进行映射操作,得到更新文本图像,包括:
采集初始文本图像上的坐标点像素并作为采样点;
将采样点与偏移量进行映射操作,映射关系为:
x2=x1+ox1,y2=y1+oy1;其中,(ox1,oy1)为小图像上的偏移坐标,(x1,y1)为采样点的坐标点像素,(x2,y2)为更新文本图像的坐标点像素。
4.根据权利要求1所述的不规则文字的识别方法,其特征在于,所述MORN矫正流程还包括:
在执行MORN矫正流程的过程中,将每次得到的更新文本图像作为输入图像更新偏移坐标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华润数字科技有限公司,未经华润数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010413346.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:三自由度展腿机构
- 下一篇:多特征融合辅助检测肺部磨玻璃影结节系统及介质