[发明专利]图像文本检测训练方法及装置在审
申请号: | 201911351419.0 | 申请日: | 2019-12-24 |
公开(公告)号: | CN113033589A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 崔淼 | 申请(专利权)人: | 上海智臻智能网络科技股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/34;G06N3/04 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 201803 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图像 文本 检测 训练 方法 装置 | ||
本发明提供一种图像文本检测训练方法及装置。所述方法包括:获取训练图像集,训练图像集包括多张训练图像;对每张训练图像进行缩放处理,以得到对应的缩放图像;根据所述缩放图像进行建模处理,以得到预测图像;采用相同方法分别对所述预测图像及对应的所述训练图像进行渐进分割处理,以得到预测图像分割集及训练图像分割集;计算第一边界损失函数;不断重复上述建模处理和计算第一边界损失函数的过程,直至所述第一边界损失函数满足预设条件。本发明可以提高识别准确率,最终提高用户检测效果。
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种图像文本检测训练方法及装置。
背景技术
图像对象检测是指在图像中定位和检测感兴趣的目标,并给出每个目标所属的区域(例如边界框)。图像对象检测在人脸识别、智能监控、图像检索、文本识别以及机器人导航等领域有着广泛的应用。图像文本检测是从图像中检测出包括各种字符的文本区域,然后,可以对文本区域中的字符进行识别和其他处理,因此,图像文本检测是图像文本识别和进一步处理的基础和前提。随着卷积神经网络(CNN)在图像处理中的广泛应用,图像文本检测能够更准确地检测出一些文本对象。
文字是不可或缺的视觉信息来源。相对于图像/视频中的其他内容,文字往往包含更强的语义信息,因此对图像中的文字提取和识别具有重大意义。基于深度学习的光学字符识别(OCR),已经被广泛应用于日常生活中,如常见的身份证、银行卡、驾驶证识别等。OCR包括检测与识别两个步骤。但是如果定位文本不准确会直接影响OCR识别精度,因此提高检测精度是OCR最重要的一步。
目前基于深度学习的字符检测都是基于检测框的回归和分割,包括CTPN(Detecting Text in Natural Image with Connectionist Text Proposal Network,基于连接预选框网络的文本检测)模型、EAST模型、Textboxes++(文本框++)模型等,但是当检测文本的行距比较小,即文字比较密集时,则现有方法无法有效区分相邻实例,最终必然会降低识别精度。
因此,如何检测文本行之间密集问题,以提高识别精度就成为本领域亟待解决的问题之一。
发明内容
本发明解决的问题是提供一种图像文本检测训练方法,可以解决密集文字紧靠的情况,最终提高用户检测效果。
为解决上述问题,本发明实施例提供一种图像文本检测训练方法,包括以下步骤:
获取训练图像集,所述训练图像集包括多张训练图像;
对每张所述训练图像进行缩放处理,以得到对应的缩放图像;
根据所述缩放图像进行建模处理,以得到对应的预测图像;
采用相同方法分别对所述预测图像及对应的所述训练图像进行渐进分割处理,以得到预测图像分割集及训练图像分割集;
根据loss1=dice(G[n-1],S[n-1])计算第一边界损失函数,其中,loss1是第一边界损失函数,G[n-1]=[g1,g2...gn-1],S[n-1]=[s1,s2...sn-1],dice是欧式距离函数,g1,g2,...,gn-1是对训练图像进行渐进扩展分割处理的结果,s1,s2,...,sn-1是对预测图像进行渐进扩展分割处理的结果;
不断重复上述建模处理、渐进分割处理和计算第一边界损失函数的过程,直至所述第一边界损失函数满足预设条件。
可选地,所述缩放处理采用下面公式实现:
其中:Area(p)是训练图像的面积,Permeter(p)是训练图像的周长,r是缩放比例,d是缩放距离,r的取值范围包括大于等于0.5且小于1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海智臻智能网络科技股份有限公司,未经上海智臻智能网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911351419.0/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序