[发明专利]一种基于连接文字段的自然图片中多方向文本检测方法有效
申请号: | 201710010596.7 | 申请日: | 2017-01-06 |
公开(公告)号: | CN106897732B | 公开(公告)日: | 2019-10-08 |
发明(设计)人: | 白翔;石葆光 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08;G06K9/20 |
代理公司: | 武汉臻诚专利代理事务所(普通合伙) 42233 | 代理人: | 向彬 |
地址: | 430074 湖北省*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于连接文字段的自然图片中多方向文本检测方法,文字段和连接是该检测方法中关键的两个步骤,定义如下:文字段指的是在图片上划分出许多单个多方向的包围盒区域,它们包围着一个文字条或者单词的一部分;连接指的是将相邻的字段连接起来,意味着它们属于同一个单词或同一句话。文字段和连接合起来使用一个端到端训练的全卷积神经网络以多种尺度进行等间隔地检测。最后的检测结果是先连接多个文字段组成新区域,然后对这些新区域进行组合而得到的。本发明提出的检测方法相对于现有技术在准确率、速度和模型简易度这些方面都取得了卓越的效果,效率高且鲁棒性强,能克服复杂的图片背景,另外也能检测图像中非拉丁文字的长文本。 | ||
搜索关键词: | 一种 基于 连接 文字 自然 图片 多方 文本 检测 方法 | ||
【主权项】:
1.一种基于连接文字段的自然图片中多方向文本检测方法,其特征在于,所述方法包括下述步骤:(1)训练文字段连接检测网络模型,包括如下子步骤:(1.1)以词条级别标记训练图像集中所有文本图像的文本内容,标签为词条的矩形初始包围盒的四个点坐标,得到训练数据集;(1.2)定义用于根据词条标签可以预测输出文字段和连接的文字段连接检测网络模型,所述文字段连接检测网络模型由级联卷积神经网络和卷积预测器组成,根据上述训练数据集计算得到文字段和连接的标签,设计损失函数,结合在线扩增和在线负样本难例挖掘方法,利用反向传导方法训练该文字段连接检测网络,得到文字段连接检测网络模型;(2)利用训练好的上述文字段连接检测网络模型对待检测文本图像进行文字段和连接检测,包括如下子步骤:(2.1)对待检测文本图像进行文字段检测,由不同卷积层输出的特征图预测出不同尺度的文字段,由同一卷积层输出的特征图预测出相同尺度的文字段;(2.2)对待检测文本图像检测出的所有特征层上的文字段进行连接检测,所述连接包括层内连接和跨层连接;(2.3)将检测得到的文字段的置信度得分和连接置信度得分组合,其中文字段置信度得分包括文字段正负类别得分和偏移量得分,利用卷积预测器输出softmax标准化得分;(3)组合文字段和连接,得到输出包围盒,包括如下子步骤:(3.1)根据(2.3)中检测得到的标准化得分,过滤卷积预测器输出的文字段和连接,以过滤后的文字段作为节点,以连接作为边,构建连接图;(3.2)在图上执行深度优先搜索以找到相互连接的组件,每个组件记作集合S,包含由连接相连起来的文字段;(3.3)将一个集合中的文字段组合成一个完整的词条,计算完整的词条包围盒并输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710010596.7/,转载请声明来源钻瓜专利网。