[发明专利]一种基于图像分割的自然场景文本位置检测方法在审
申请号: | 201910147441.7 | 申请日: | 2019-02-27 |
公开(公告)号: | CN110059539A | 公开(公告)日: | 2019-07-26 |
发明(设计)人: | 侯春萍;杨阳;徐金辰;夏晗 | 申请(专利权)人: | 天津大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06K9/32;G06K9/34;G06K9/62;G06N3/04 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 程毓英 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于图像分割的自然场景文本位置检测方法,包括下列步骤:选取数据集;挑选含有文字的图像并标注,制作训练集和测试集;数据增强:第一,随机旋转:以0.25的概率对图片进行随机旋转;第二:随机剪裁;第三,随机颜色扰动;构建训练神经网络:VGG16作为基础网络,将网络的全连接层都改为卷积层,即将Pooling5的输出保持不变,将Fc6变成7*7*512的卷积层,Fc7和Fc8则使用1*1的卷积核变为卷积层,依照分割的思想对文本进行逐像素预测,最后得到每个像素点的预测结果;设计损失函数;对训练结果进行后处理。 | ||
搜索关键词: | 卷积 图像分割 文本位置 自然场景 训练神经网络 后处理 基础网络 输出保持 数据增强 随机颜色 损失函数 像素预测 训练结果 预测结果 扰动 测试集 卷积核 连接层 数据集 像素点 训练集 检测 构建 剪裁 标注 文本 图像 分割 概率 制作 网络 图片 | ||
【主权项】:
1.一种基于图像分割的自然场景文本位置检测方法,包括下列步骤:(1)选取数据集;挑选含有文字的图像并标注,制作训练集和测试集;(2)数据增强:第一,随机旋转:以0.25的概率对图片进行随机旋转,旋转角度的数值分别是0、90、180、270四个数值;第二:随机剪裁,对旋转后的图像进行随机剪裁,剪裁区域与原图面积比在0.1到1之间,纵横比在0.5到2之间,保证每次剪裁出的区域至少包含一个文本框的10%以上;第三,随机颜色扰动:用随机数值对图像的亮度、饱和度于色彩值进行扰动;(3)构建训练神经网络:VGG16作为基础网络,将网络的全连接层都改为卷积层,即将Pooling5的输出保持不变,将Fc6变成7*7*512的卷积层,Fc7和Fc8则使用1*1的卷积核变为卷积层,依照分割的思想对文本进行逐像素预测,最后得到每个像素点的预测结果;(4)设计损失函数;(5)对训练结果进行后处理:预测结果首先连接成文本区域,然后通过调用opencv库中的minAreaRect函数直接提取文本框,接着根据先验知识,利用文本框的几何特征滤除冗余文本框。(6)根据权利要求1所述的方法,其特征在于,步骤(4)如下:设图像上含有N个文本框;Si代表第i个文本框的面积,S表示所有文本框的面积之和,则第i个文本框损失权重wi的计算公式可以为:![]()
![]()
![]()
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910147441.7/,转载请声明来源钻瓜专利网。