[发明专利]文本图像处理方法、装置、电子设备及计算机可读介质在审
申请号: | 201811486458.7 | 申请日: | 2018-12-06 |
公开(公告)号: | CN109685052A | 公开(公告)日: | 2019-04-26 |
发明(设计)人: | 丁笑天;刘岩 | 申请(专利权)人: | 泰康保险集团股份有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/34;G06K9/62 |
代理公司: | 隆天知识产权代理有限公司 72003 | 代理人: | 章侃铱;郑特强 |
地址: | 100031 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算机可读介质 电子设备 文本区域 文本图像 表格线 原始文本图像 目标文本 光学字符识别 图像 光学字符 合并处理 同一单元 整体输出 正确率 检测 算法 文本 中文 | ||
本公开涉及一种文本图像处理方法、装置、电子设备及计算机可读介质。该方法包括:对原始文本图像进行文本区域检测,生成多个文本区域块;对所述原始文本图像进行表格线检测,生成表格线;基于所述表格线将所述多个文本区域块进行合并处理,生成目标文本图像;以及通过所述目标文本图像进行光学字符识别。本公开涉及的文本图像处理方法、装置、电子设备及计算机可读介质,能够将属于同一行、同一单元格的文本作为整体输出,从而能够提升光学字符算法中文本识别的正确率。
技术领域
本公开涉及计算机信息处理领域,具体而言,涉及一种文本图像处理方法、装置、电子设备及计算机可读介质。
背景技术
在公司办公流程中,扫描文档应用十分频繁,例如签发公文、发票信息、归档电子档案等;很多情况下人们需要从扫描文档中(即扫描仪输出的图片)提取出文字信息,从而便于修改、存储、检索、利用及传输。因此如何高效地获取扫描文档的文字信息,具有重要的意义。
光学字符识别(Optical Character Recognition,OCR)技术,是通过对图片中的文字进行提取识别,转换成可检索的数据的过程。当前 OCR技术已经成为扫描文档识别最重要的手段之一。然而,现今的OCR 技术并未发展完善,其识别正确率受诸多因素影响。其中,OCR技术中的文本检测分割包括字符区域检测和字符切分。不同文档的字符区域位置、字体、字号、语言(中文、英文、其他语言等)都不尽相同;并且不同文档本身的背景也很大可能不同。文本识别分类器的性能,会依赖于快速准确的文本(及文本行)处理和定位算法。文本(及文本行)处理和定位的精度,往往能决定整个OCR识别过程的正确率。
而且,银行、保险行业中涉及的很多扫描文件都是表格形式的文本,例如体检表格、各种票据等。在文本行处理和分割过程中,需要根据文件中的表格关系,组织文本的输出,以形成结构化文字输出。由于带有表格的文本图像比普通文本更加复杂,现有技术中的对带有表格的文本图像的文本行处理和定位具有很大的缺陷。
因此,需要一种新的文本图像处理方法、装置、电子设备及计算机可读介质。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本公开提供一种文本图像处理方法、装置、电子设备及计算机可读介质,能够将属于同一行、同一单元格的文本作为整体输出,从而能够提升光学字符算法中的文本识别的正确率。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一方面,提出一种文本图像处理方法,该方法包括:对原始文本图像进行文本区域检测,生成多个文本区域块;对所述原始文本图像进行表格线检测,生成表格线;基于所述表格线将所述多个文本区域块进行合并处理,生成目标文本图像;以及通过光学字符识别方法对所述目标文本图像进行文字识别。
在本公开的一种示例性实施例中,对原始文本图像进行文本区域检测,生成多个文本区域块包括:通过区域特征提取算法确定所述原始文本图像中的目标区域;以及提取带有文本的目标区域以生成所述多个文本区域块。
在本公开的一种示例性实施例中,提取带有文本的目标区域以生成所述多个文本区域块包括:获取目标区域;通过像素投影方法获取所述目标区域在预定方向上的投影数据;通过滑动窗口检测法与投影数据提取确定所述目标区域中带有文本的部分目标区域;以及通过带有文本的部分目标区域生成所述多个文本区域块。
在本公开的一种示例性实施例中,通过滑动窗口检测法与投影数据提取确定所述目标区域中带有文本的部分目标区域包括:通过滑动窗口检测法与投影数据提取获取带有文本的目标区域;以及通过文本特征方法由提取带有文本的部分目标区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泰康保险集团股份有限公司,未经泰康保险集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811486458.7/2.html,转载请声明来源钻瓜专利网。