[发明专利]一种维语图片字符的识别方法及系统有效
申请号: | 201910583713.8 | 申请日: | 2019-07-01 |
公开(公告)号: | CN110287952B | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 孙萍;高岩;陈宏江;赵全军;杨浩 | 申请(专利权)人: | 中科软科技股份有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/34;G06K9/62 |
代理公司: | 北京天盾知识产权代理有限公司 11421 | 代理人: | 张彩珍 |
地址: | 100190 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 图片 字符 识别 方法 系统 | ||
1.一种维语图片字符的识别方法,其特征在于,该识别方法包括:
采集原始图片并对图片中是否包含维语以及维语所在的文本区域进行标记,将标记后的图片作为待训练样本;
将所述待训练样本输入到CNN+BiLSTM模型中以提取待训练样本的特征向量,对所述待训练样本的特征向量进行训练,生成维文文本区域定位网络模型;
将待训练样本中包含维语文本区域的图片输入CNN网络模型,提取所述维语文本区域的特征;将所述维语文本区域的特征输入BiLSTM+CTC网络模型中,获得维语字符序列,并根据所述维语字符序列生成维语字符识别网络模型;
利用维文文本区域定位网络模型识别出待检测图片的维语文本区域;
利用所述维语字符识别网络模型识别出所述待检测图片的维语文本区域中的维语字符;
利用维语校正网络模型对所述维语字符进行校正以获得校正后的维语字符,其中,所述维语校正网络模型通过以下方法获得:
将获取的维语字符序列输入BiLSTM+CTC网络模型中得到优化后的维语字符序列,基于所述优化后的维语字符序列得到所述维语校正网络模型。
2.根据权利要求1所述的识别方法,其特征在于,所述维文文本区域定位网络模型是通过以softmax作为分类器、以交叉熵作为损失函数对所述训练样本的特征向量进行训练而生成的。
3.根据权利要求1所述的识别方法,其特征在于,利用所述维文文本区域定位网络模型识别待检测图片中的维语文本区域包括以下子步骤;
利用CNN卷积神经网络的VGG16提取待检测图片的特征生成待检测图片的特征图谱;
利用VGG16的卷积层对所述特征图谱进行卷积获得第一输出结果;
将所述第一输出结果进行重塑并输入BiLSTM中,获得第二输出结果;将该第二输出结果再输入到线性层获得第三输出结果;对第三输出结果进行重塑,从而获得第四输出结果;
将第四输出结果输入到全连接层对得到所述维语文本区域的预测数值,根据所述预测数值识别出待检测图片中的维语文本区域。
4.根据权利要求3所述的识别方法,其特征在于,还包括根据所述识别出的待检测图片中的维语文本区域获得该文本区域的文本行,其中所述获得该文本区域的文本行包括以下子步骤:
预设一个集合,计算该集合里面所有字符区块角度的平均值;
利用最小二乘法线性回归方法生成一条与所有字符区块的中心距离最短的直线;
沿每个字符区块的中心向所述直线做垂直投影,获得多个投影点;
从所述投影点中选出相距最远的两个点,记做第一坐标点和第二坐标点;
根据第一、第二坐标点的坐标值及字符区块的大小得到该文本区域的文本行。
5.根据权利要求1所述的识别方法,其特征在于,在利用维文文本区域定位网络模型识别出待检测图片中的维语文本区域的步骤之前还包括对待检测的图片进行倾斜校正的步骤:
计算待检测图片的边缘二值图像,检测出待检测图片中的直线;
计算边缘图像的Radon变换,对每一个象素为1的点进行运算以检测出Radon变换矩阵中的峰值和待检测图片的直线倾角;
根据Radon变换矩阵中的峰值和待检测图片的直线倾角对待检测的图片进行倾斜校正。
6.一种维语图片字符的识别系统,其特征在于,该识别系统包括采集模块、区域定位模型生成模块、第一识别模块、字符识别网络模型生成模块、第二识别模块和校正模块;
所述采集模块用于采集原始图片并对图片中是否包含维语以及维语所在的文本区域进行标记,将标记后的图片作为待训练样本;
所述区域定位模型生成模块将所述待训练样本输入到CNN+BiLSTM模型中以提取待训练样本的特征向量,对所述待训练样本的特征向量进行训练,生成维文文本区域定位网络模型;
所述第一识别模块将待训练样本中包含维语文本区域的图片输入CNN网络模型,提取所述维语文本区域的特征;将所述维语文本区域的特征输入BiLSTM+CTC网络模型中,获得维语字符序列,并根据所述维语字符序列生成维语字符识别网络模型;
所述字符识别网络模型生成模块利用维文文本区域定位网络模型识别出待检测图片的维语文本区域;
所述第二识别模块利用所述维语字符识别网络模型识别出所述待检测图片的维语文本区域中的维语字符;
所述校正模块利用维语校正网络模型对所述维语字符进行校正以获得校正后的维语字符,其中,所述维语校正网络模型通过如下操作获得的:
将获取的维语字符序列输入BiLSTM+CTC网络模型中得到优化后的维语字符序列,基于所述优化后的维语字符序列得到所述维语校正网络模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科软科技股份有限公司,未经中科软科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910583713.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文字识别的方法及装置
- 下一篇:水位自动识别方法及装置