[发明专利]一种检测文本图像质量的方法、装置、设备及存储介质在审
申请号: | 202210726803.X | 申请日: | 2022-06-24 |
公开(公告)号: | CN115100655A | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 李煜林;于海鹏;姚锟;钦夏孟 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06V30/14 | 分类号: | G06V30/14;G06V30/16;G06V30/19;G06V10/82;G06N3/08;G06N3/04 |
代理公司: | 北京钲霖知识产权代理有限公司 11722 | 代理人: | 李英艳;杨继成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 检测 文本 图像 质量 方法 装置 设备 存储 介质 | ||
本公开提供了一种检测文本图像质量的方法、装置、设备及存储介质,涉及人工智能技术领域,尤其涉及深度学习、图像处理、计算机视觉等领域,可应用于光学字符识别等场景。具体实现方案为:获取原始图像。根据原始图像,确定至少一个文本切片图像。确定文本切片图像的第一置信度。然后,可以根据第一置信度确定原始图像的质量信息。响应于确定质量信息满足预设条件,对原始图像进行光学字符识别OCR处理。本公开通过对原始图像进行切片,并基于各文本切片图像计算确定原始图像的质量分信息,可以有效参考到原始图像中的细节部分,得到更准确的质量信息。使得基于质量信息进行OCR处理的结果准确率也得到显著提升。
技术领域
本公开涉及人工智能领域,尤其涉及深度学习、图像处理、计算机视觉等领域,可应用于光学字符识别等场景。
背景技术
随着人工智能的发展,光学字符识别(optical character recognition,OCR)的能力正在越来越多的应用于各个场合。其中,文本识别是OCR能力中较为重要的一环。对于财务票据的OCR自动化识别、录入,已经成为应用最为广泛和成熟的一面。
对于部分特定场景,例如弯曲字、小号字、异体字、手写字等,目前OCR识别效果差强人意。因此,可以在进行OCR识别之前,通过对确定文本图像的质量,确定出文本图像质量较高的图像,以用于后续再进行相应的OCR识别。
发明内容
本公开提供了一种检测文本图像质量的方法、装置、设备及存储介质。
根据本公开的第一方面,提供了一种检测文本图像质量的方法,包括:获取原始图像。其中,原始图像中包含有文本。根据原始图像,确定文本切片图像。其中,文本切片图像为原始图像中包含文本的局部图像。确定文本切片图像的第一置信度,第一置信度指示文本切片图像的清晰程度。然后,可以根据第一置信度确定原始图像的质量信息。响应于确定质量信息满足预设条件,可以对原始图像进行OCR处理。本公开通过对原始图像进行切片,并基于各文本切片图像确定原始图像的质量信息,可以有效参考到原始图像中的细节部分,得到更准确的质量信息。使得基于质量信息进行OCR处理的结果准确率也得到显著提升。
根据本公开的第二方面,提供了一种检测文本图像质量的装置,包括:获取模块,用于获取原始图像,原始图像中包含有文本;文本检测模块,用于根据原始图像,确定文本切片图像,其中,文本切片图像为原始图像中包含文本的局部图像;分类模块,用于确定文本切片图像的第一置信度,第一置信度指示文本切片图像的清晰程度;质量检测模块,用于根据第一置信度确定原始图像的质量信息;处理模块,用于响应于确定当所述质量信息满足预设条件,对所述原始图像进行光学字符识别OCR处理。本公开通过对原始图像进行切片,并基于各切片图像确定原始图像的质量信息,可以有效参考到原始图像中的细节部分,得到更准确的质量信息。使得基于质量信息进行OCR处理的结果准确率也得到显著提升。
根据本公开的第三方面,提供了一种检测文本图像质量的设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述第一方面中的任意一项方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述第一方面中的任意一项方法。
根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述第一方面中的任意一项方法。
本公开提供的一种检测文本图像质量的方法、装置、设备及存储介质,通过对原始图像进行切片,并基于各切片图像计算原始图像的质量分,可以有效参考到原始图像中的细节部分,保证了最终的质量分更加贴合真实得分。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210726803.X/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序