[发明专利]一种融合文字图像中文字区域边缘信息的文字检测方法有效

专利信息
申请号: 201910855189.5 申请日: 2019-09-10
公开(公告)号: CN110738207B 公开(公告)日: 2020-06-19
发明(设计)人: 彭博;高子平;李天瑞 申请(专利权)人: 西南交通大学
主分类号: G06K9/32 分类号: G06K9/32;G06K9/34;G06K9/40;G06N3/04;G06N3/08;G06T7/11;G06T7/187;G06T7/194
代理公司: 成都东恒知盛知识产权代理事务所(特殊普通合伙) 51304 代理人: 何健雄;廖祥文
地址: 610000*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 融合 文字 图像 区域 边缘 信息 检测 方法
【权利要求书】:

1.一种融合文字图像中文字区域边缘信息的文字检测方法(Fusing Text EdgeSemantics,FTES),其特征在于:使用FTES-Net语义分割网络对包含文字的图像多次进行迭代学习,学习完成的FTES-Net语义分割网络把一幅输入图像映射到包含文字语义区域、边缘语义区域和背景语义区域的语义分割图,从语义分割图中提取文字语义区域分割图,通过连通区域分析和孔洞分析,删除文字语义区域中面积小于正常文字区域面积的连通区域和孔洞区域,生成新的文字语义区域分割图,提取文字边缘轮廓实现检测图像中任意形状的文字区域;包含以下主要步骤:

步骤1:数据标注与数据增强;

步骤1包括:

步骤1.1建立模型数据集:将采集到的文字图像构成原始数据集,对原始数据集图像中文字区域进行坐标点标注,通过逐次连接标注的坐标点构成文字区域轮廓框,轮廓框宽度根据文字区域面积动态设置,轮廓框内部区域标注为文字区域,轮廓框外部区域标注为背景区域,重新标注后的数据构成目标数据;

步骤1.2图像数据增强(Image data augmentation):对步骤1.1中原始数据集和目标数据集进行相同的随机翻转变换、随机裁剪、和随机缩放变换,分别获得模型训练数据集和模型目标数据集;

步骤2:训练FTES-Net语义分割网络;

步骤2包括:

步骤2.1模型参数配置:在步骤1.2中获得模型训练数据集的总量为S;模型过程设置N个epochs,即模型迭代训练N次,设置每一个epoch的batch-size值为1,即在每次迭代训练过程中需要进行训练S次,每次1幅图像参与训练,模型训练使用Adam损失函数作为损失优化函数;

步骤2.2训练FTES-Net网络:将步骤1.2中模型训练数据集逐次输入给FTES-Net语义分割网络,FTES-Net网络经过前向传播生成包含文字语义区域、边缘语义区域和背景语义区域的语义分割图,计算语义分割图与步骤1.2中模型目标数据集中对应标注图像的损失,损失函数采用多分类交叉熵损失函数和Dice损失函数按重要性进行权重分配后相加,以最小化损失函数为目的采用梯度下降方法进行反向传播更新FTES-Net网络参数;

步骤2.3迭代训练:重复步骤2.2,当所有的epochs迭代训练完后保存FTES-Net模型和模型参数信息;

步骤3:获取文字轮廓;

步骤3包括:

步骤3.1获取语义分割图:加载步骤2.3保存的FTES-Net模型和模型参数信息,将需要检测的文字图像输入到FTES-Net模型,生成对应的语义分割图;

步骤3.2噪声去除:提取步骤3.1语义分割图中的文字语义区域,通过连通区域分析和孔洞分析,删除文字语义区域中面积小于正常文字区域面积的连通区域和孔洞区域,生成新的文字语义区域分割图;

步骤3.3提取文字轮廓框:对步骤3.2中的文字语义区域分割图进行图像扩张操作,然后通过轮廓检测生成文字轮廓曲线框,对文字轮廓曲线框进行平滑处理生成最终文字轮廓框。

2.根据权利里要求1所述的一种融合文字图像中文字区域边缘信息的文字检测方法(Fusing Text Edge Semantics,FTES),其特征在于:所述步骤2中步骤2.2多分类交叉熵损失函数为:

其中,lc为交叉熵损失,N为语义区域类别数量,C为像素总数,Xi为像素类别预测概率值,所述Dice损失函数为:

其中,ltext,ledge,lbackground分别为文字、边缘和背景语义区域的损失,R为真实文字区域,为FTES-Net预测输出的文字区域,yt和yp真实概率和预测概率。

3.根据权利里要求1所述的一种融合文字图像中文字区域边缘信息的文字检测方法(Fusing Text Edge Semantics,FTES),其特征在于:融合多分类交叉熵损失函数和Dice损失函数后为:

λ,μ,ν为权重系数,分别为2,5,1,以最小化损失函数为目的采用梯度下降方法进行反向传播更新FTES-Net网络参数。

4.根据权利里要求1所述的一种融合文字图像中文字区域边缘信息的文字检测方法(Fusing Text Edge Semantics,FTES),其特征在于:所述步骤1.2中原始数据集和目标数据集随机裁剪的裁剪面积比例不超过原始图片大小10%,所述随机缩放后图像的长和宽为16的整倍数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学,未经西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910855189.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top