[发明专利]一种OCR文字识别方法、电子设备及存储介质在审
申请号: | 202211110305.9 | 申请日: | 2022-09-13 |
公开(公告)号: | CN115457565A | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 张文斌;黄伟;贾瑶 | 申请(专利权)人: | 北京中电汇智科技有限公司 |
主分类号: | G06V30/148 | 分类号: | G06V30/148;G06V30/146;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 深圳知帮办专利代理有限公司 44682 | 代理人: | 谢金文 |
地址: | 100000 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 ocr 文字 识别 方法 电子设备 存储 介质 | ||
1.一种OCR文字识别方法,其特征在于,包括以下步骤:
获取待识别的文本数据,并对文本数据进行预处理得到文本图像;
基于神经网络对文本图像提取特征信息并标注数据进行训练得到相应训练模型,根据训练模型对文本图像的文本区域进行预测定位并剪裁,通过图片的旋转矫正模型对文本图像进行旋转矫正得到目标文本图像;
对目标文本图像中的文字进行切分得到字符区域,将字符区域上的点垂直映射到最下方的位置,统计垂直投影后的最下方每个位置上黑色像素点的个数,将每个位置点上的统计结果作为切分字符的标准,使文本中的多字符切分成单字符;
根据切分好的单字符送入OCR识别引擎进行文字识别,输出被识别的文字。
2.根据权利要求1所述的OCR文字识别方法,其特征在于,将字符区域上的点垂直映射到最下方的位置,包括:
S20:垂直投影后,统计目标文本图像中每个位置上黑色像素点的个数;
S21:根据黑色像素点个数进行初步字符切分,并记录切分位置和切分结果的宽度;
S22:找出切分结果宽度的众位数,作为目标文本图像中切分目标字符的宽度,其依据印刷体文字具有相同的字符宽度;
S23:根据第三步的众位数值,验证S21中的宽度,若相差大且计算宽度超出宽度众位数值的三分之二,则确定字符存在重叠部分,需要做进一步切分操作,执行下述S24,反之,确定字符宽度正常;
S24:使用计算宽度除以宽度众位数,并向上取整得到结果将其作为循环次数,获取重叠区域包含的字符个数,在相邻两个字符中心位置附近,查找具有最小投影点的位置并将其作为重叠字符的切分位置。
3.根据权利要求1所述的OCR文字识别方法,其特征在于,通过图片的旋转矫正模型对文本图像进行旋转矫正得到目标文本图像,包括:
对文本图像中的文本进行行合并,选取长度大的文本进行文本识别得到其置信度,经过与置信度阈值对比后判断其是否为正立的文字;
预设置信度阈值为0.5,若文本经过文本识别模型识别的置信度小于0.5,则确定该文本是倒立的;反之,若置信度大于0.5,则确定文本是正立的;
其中,合并文本框的过程中,将文本的所有文本框安装好左上角点纵坐标从小到大排序即纵坐标相同则按照横坐标从小到大排序;在y方向上通过不断增加y方向的值来对文本框进行是否在某一行的判定,待找出若干行后,再对每一行按照x方向进行文本框排序后,按从左往右的顺序合并每一行的文本框。
4.根据权利要求3所述的OCR文字识别方法,其特征在于,采用投票表决的方式判断当前文本图像的正倒方向类别,具体过程包括:
预设A为一个样本集合,b为一个待测样本,通过选定某种距离计算方法来作为两个样本之间的距离度量,将集合A中样本与测试样本b进行距离计算并按从小到大排序,选取距离最近的前k个样本,则b基于最近的k个样本信息被预测种类或值,其中k≤20,k∈N*;
当距离度量为欧式距离时,欧氏距离的二维表达式为其中x1、y1、x2和y2表示两点的横纵坐标值;
预设集合A中的元素{0,1},0的类别为倒立,1的诶别为正立,选用一维绝对值函数作为距离变量,当k=1时,通过计算置信度与集合A中的原始距离并按从小到大排序,得到距离最近的元素,则该元素的类别为文本框的类别值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中电汇智科技有限公司,未经北京中电汇智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211110305.9/1.html,转载请声明来源钻瓜专利网。