[发明专利]一种基于图像分割的自然场景文本位置检测方法在审

专利信息
申请号: 201910147441.7 申请日: 2019-02-27
公开(公告)号: CN110059539A 公开(公告)日: 2019-07-26
发明(设计)人: 侯春萍;杨阳;徐金辰;夏晗 申请(专利权)人: 天津大学
主分类号: G06K9/00 分类号: G06K9/00;G06K9/20;G06K9/32;G06K9/34;G06K9/62;G06N3/04
代理公司: 天津市北洋有限责任专利代理事务所 12201 代理人: 程毓英
地址: 300072*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 卷积 图像分割 文本位置 自然场景 训练神经网络 后处理 基础网络 输出保持 数据增强 随机颜色 损失函数 像素预测 训练结果 预测结果 扰动 测试集 卷积核 连接层 数据集 像素点 训练集 检测 构建 剪裁 标注 文本 图像 分割 概率 制作 网络 图片
【说明书】:

发明涉及一种基于图像分割的自然场景文本位置检测方法,包括下列步骤:选取数据集;挑选含有文字的图像并标注,制作训练集和测试集;数据增强:第一,随机旋转:以0.25的概率对图片进行随机旋转;第二:随机剪裁;第三,随机颜色扰动;构建训练神经网络:VGG16作为基础网络,将网络的全连接层都改为卷积层,即将Pooling5的输出保持不变,将Fc6变成7*7*512的卷积层,Fc7和Fc8则使用1*1的卷积核变为卷积层,依照分割的思想对文本进行逐像素预测,最后得到每个像素点的预测结果;设计损失函数;对训练结果进行后处理。

技术领域

本发明属于目标检测技术领域,涉及一种基于深度学习技术的检测自然场景图像中文本位置的方法。

背景技术

文本检测算法是光学字符识别(Optical Character Recognition,OCR)领域的一个分支。最初的OCR技术是扫描本文,其特点是分辨率高且文字排列整齐有规律,背景简洁,文本区域占图像总体比重较大。扫描文本识别率达到97.38%[1]。随着数码相机的大面积普及,扫描文本算法逐渐不能满足社会需求。被检测的自然图像质量下降,背景复杂,文本方向不确定且占图像整体比重较小,例如识别拍摄街景的照片中包含的路标或者街道铭牌包含的字符。将扫描文本算法应用在这类图像上所取得的效果十分糟糕。

为了跟好的识别自然场景图像中的文本,我们通常将这个任务拆分成多个独立的子任务。第一个子任务一般是文本检测[2],也可以叫做文本定位(Text localization)。这个任务主要是找到图像中文本的位置,其输出是单个字符或者字符串的边界框,也可以称为文本框。第二个子任务是文本识别。将剪裁好的文本框作为输入,得到文本内容作为结果。第三个子任务是端到端识别,这个任务是将前两个任务结合在一起,达到更高的自动化效果。本发明主要涉及一种文本检测的算法。

文本检测与目标检测在方法上有很大的相似之处,但文本和一般物体相比有更大纵横比,因此对文本检测需要作一定的处理来完成识别。本发明主要考虑对文本的定位问题。

[1]Smith R.An Overview of the Tesseract OCR Engine[C]//InternationalConference on Document Analysis&Recognition.2007.

[2]Kai W,Belongie S.Word Spotting in the Wild[M]//Computer Vision–ECCV 2010.2010.

发明内容

本发明的目的是提供一种基于深度学习的方法对自然场景图像中的文本进行定位,将图像中的文本内容与其他背景分开。技术方案如下:

一种基于图像分割的自然场景文本位置检测方法,包括下列步骤:

(1)选取数据集;挑选含有文字的图像并标注,制作训练集和测试集;

(2)数据增强:第一,随机旋转:以0.25的概率对图片进行随机旋转,旋转角度的数值分别是0、90、180、270四个数值;第二:随机剪裁,对旋转后的图像进行随机剪裁,剪裁区域与原图面积比在0.1到1之间,纵横比在0.5到2之间,保证每次剪裁出的区域至少包含一个文本框的10%以上;第三,随机颜色扰动:用随机数值对图像的亮度、饱和度于色彩值进行扰动;

(3)构建训练神经网络:VGG16作为基础网络,将网络的全连接层都改为卷积层,即将Pooling5的输出保持不变,将Fc6变成7*7*512的卷积层,Fc7和Fc8则使用1*1的卷积核变为卷积层,依照分割的思想对文本进行逐像素预测,最后得到每个像素点的预测结果;

(4)设计损失函数;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910147441.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top