[发明专利]一种文本校正方法、装置、计算机设备及存储介质在审
申请号: | 202110182043.6 | 申请日: | 2021-02-09 |
公开(公告)号: | CN114943973A | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 李德健 | 申请(专利权)人: | 广州视源电子科技股份有限公司 |
主分类号: | G06V30/148 | 分类号: | G06V30/148;G06T7/12 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 510530 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 校正 方法 装置 计算机 设备 存储 介质 | ||
本发明公开了一种文本校正方法、装置、计算机设备及存储介质。该方法包括:获取待校正文本行图像以及文本行轮廓图像,文本行轮廓图像为待校正文本行图像对应的二值化图像;确定至少一个分割数量值,并按照各分割数量值分别对文本行轮廓图像进行分割,确定文本行轮廓图像在各分割操作后对应的控制点集合;根据各控制点集合分别对待校正文本图像透视变换,获得相对应的各校正文本图像。该方法可以解决现有技术中由于在待识别图像中抠出的文本行图像中的文本行是弯曲的从而导致识别算法无法对字符进行有效识别的问题,实现对抠出的弯曲文本行图像进行有效校正,以保证校正后图像输入识别算法后得到准确的字符识别结果。
技术领域
本发明实施例涉及图像处理技术领域,尤其涉及一种文本校正方法、装置、计算机设备及存储介质。
背景技术
近年来,光学字符识别(optical character recognition,即OCR)技术应用到各行各业,如身份证识别,发票识别等。一般的OCR系统通常包含两个模块,文本检测和文本识别,其中,文本检测是核心模块之一,其主要目的是从输入图片中获取每个文本行的图片。
目前文本检测的主流方法是用深度学习算法获取文本行图片,把待检测图片送入卷积神经网络,接着预测文字区域的分数,得到每个像素点属于文字的分数,对分数图进行二值化,得到文字的掩膜,取文字掩膜的轮廓作为文字轮廓,根据外接矩形抠出文字区域小图。
但是,上述方法在待检测图片中文字为弯曲的情况下,所抠出文字区域小图中文字是弯曲的,将这种检测结果直接输入给识别算法很容易导致误识别。
发明内容
有鉴于此,本发明实施例提供了一种文本校正方法、装置、计算机设备及存储介质,以解决现有技术中由于在待识别图像中抠出的文本行图像中的文本行是弯曲的从而导致识别算法无法对字符进行有效识别的问题。
第一方面,本发明实施例提供了一种文本校正方法,包括:
获取待校正文本行图像以及文本行轮廓图像,所述文本行轮廓图像为所述待校正文本行图像对应的二值化图像;
确定至少一个分割数量值,并按照各所述分割数量值分别对所述文本行轮廓图像进行分割,确定所述文本行轮廓图像在各分割操作后对应的控制点集合;
根据各所述控制点集合分别对所述待校正文本图像透视变换,获得相对应的各校正文本图像。
第二方面,本发明实施例还提供了一种文本校正装置,包括:
获取模块,用于获取待校正文本行图像以及文本行轮廓图像,所述文本行轮廓图像为所述待校正文本行图像对应的二值化图像;
确定模块,用于确定至少一个分割数量值,并按照各所述分割数量值分别对所述文本行轮廓图像进行分割,确定所述文本行轮廓图像在各分割操作后对应的控制点集合;
校正模块,用于根据各所述控制点集合分别对所述待校正文本图像透视变换,获得相对应的各校正文本图像。
第三方面,本发明实施例还提供了一种计算机设备,所述计算机设备
包括:一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面提供的文本校正方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面提供的文本校正方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州视源电子科技股份有限公司,未经广州视源电子科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110182043.6/2.html,转载请声明来源钻瓜专利网。