[发明专利]用于辅助OCR图像数据标注的方法及装置有效
申请号: | 202010304296.1 | 申请日: | 2020-04-17 |
公开(公告)号: | CN111461132B | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 蔡耀华 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06V10/26 | 分类号: | G06V10/26;G06V30/24 |
代理公司: | 北京永新同创知识产权代理有限公司 11376 | 代理人: | 林锦辉;刘景峰 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 辅助 ocr 图像 数据 标注 方法 装置 | ||
本说明书的实施例提供用于辅助OCR图像数据标注的方法及装置。在该方法中,在对OCR图像数据进行文本区域检测得到第一文本候选区域集后,基于文本候选区域的区域高度以及文本候选区域的重合关系,从第一文本候选区域集中提取出与其它文本候选区域之间不存在重合的第四文本候选区域。此外,从与其它文本候选区域之间存在部分重合的文本候选区域中确定出代表文本候选区域。此外,输出第四文本候选区域集和代表文本候选区域,作为文本标注框。
技术领域
本说明书实施例通常涉及光学字符识别(Optical Character Recognition,OCR)数据标注技术领域,尤其涉及用于辅助OCR图像数据标注的方法及装置。
背景技术
针对OCR图像数据的标注主要依赖于人工手动在OCR图片中框选出文字区域,并且填写文字内容,从而使得OCR图像数据的标注效率和标注精度不高。在遇到OCR图像数据中的文本倾斜、稠密时,OCR图像数据的标注效率和标注精度不高的问题更为显著。
发明内容
鉴于上述问题,本说明书实施例提供了一种用于辅助OCR图像数据标注的方法及装置。利用该方法及装置,可以自动地从OCR图像数据中确定出文本标注框,从而有助于提高OCR图像数据的标注效率和标注精度。
根据本说明书实施例的一个方面,提供一种用于辅助OCR图像数据标注的方法,包括:对OCR图像数据进行文本区域检测,以得到所述OCR图像数据中的第一文本候选区域集;基于文本候选区域的区域高度,将所述第一文本候选区域集划分为第二文本候选区域集和第三文本候选区域集,第二文本候选区域的区域高度不小于所述第一文本候选区域集的平均区域高度,第三文本候选区域的区域高度小于所述第一文本候选区域集的平均区域高度;基于文本候选区域的重合关系,将所述第二文本候选区域集划分为第四文本候选区域集和第五文本候选区域集,第四文本候选区域是与其它文本候选区域之间不存在重合的文本候选区域,第五文本候选区域是与其它文本候选区域之间存在部分重合的文本候选区域;从所述第五文本候选区域集中的每组重合文本候选区域中确定出代表文本候选区域,以得到第六文本候选区域集;以及输出所述第四文本候选区域集和所述第六文本候选区域集中的文本候选区域,作为文本标注框。
可选地,在上述方面的一个示例中,从所述第五文本候选区域集中的每组重合文本候选区域中确定出代表文本候选区域,以得到第六文本候选区域集可以包括:确定所述第四文本候选区域集的整体区域斜率,以作为标准区域斜率;针对每组重合文本候选区域,分别计算该组文本候选区域中的各个文本候选区域与距离最近的第四文本候选区域之间的区域斜率,以及将所计算出的区域斜率与所述标准区域斜率差距最小的文本候选区域,确定为该组重合文本候选区域的代表文本候选区域。
可选地,在上述方面的一个示例中,在将所述第一文本候选区域集划分为第二文本候选区域集和第三文本候选区域集之前,所述方法还可以包括:对所述第一文本候选区域集中的第一文本候选区域进行重叠合并处理。
可选地,在上述方面的一个示例中,在将所述第二文本候选区域集划分为第四文本候选区域集和第五文本候选区域集之前,所述方法还可以包括:从所述第二文本候选区域集中去除区域斜率大于预定阈值的文本候选区域。
可选地,在上述方面的一个示例中,在将所述第二文本候选区域集划分为第四文本候选区域集和第五文本候选区域集之前,所述方法还可以包括:从所述第二文本候选区域集中搜索出所述第三文本候选区域集中的各个第三文本候选区域的邻居区域;以及将与所述邻居区域之间存在重合的第三文本候选区域,添加到所述第二文本候选区域集中。
可选地,在上述方面的一个示例中,所述方法还可以包括:提取所述文本标注框中的各个文本候选区域的文本特征点;基于所提取的各个文本候选区域的文本特征点,确定所述文本标注框的倾斜度;以及根据所述文本标注框的倾斜度,对所述文本标注框进行旋转校正。
可选地,在上述方面的一个示例中,所述方法还可以包括:对所述OCR图像数据进行二值化处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010304296.1/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序