[发明专利]一种基于连接文字段的自然图片中多方向文本检测方法有效

申请号：	201710010596.7	申请日：	2017-01-06
公开（公告）号：	CN106897732B	公开（公告）日：	2019-10-08
发明（设计）人：	白翔;石葆光	申请（专利权）人：	华中科技大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/08;G06K9/20
代理公司：	武汉臻诚专利代理事务所(普通合伙) 42233	代理人：	向彬
地址：	430074 湖北省***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于连接文字段的自然图片中多方向文本检测方法，文字段和连接是该检测方法中关键的两个步骤，定义如下：文字段指的是在图片上划分出许多单个多方向的包围盒区域，它们包围着一个文字条或者单词的一部分；连接指的是将相邻的字段连接起来，意味着它们属于同一个单词或同一句话。文字段和连接合起来使用一个端到端训练的全卷积神经网络以多种尺度进行等间隔地检测。最后的检测结果是先连接多个文字段组成新区域，然后对这些新区域进行组合而得到的。本发明提出的检测方法相对于现有技术在准确率、速度和模型简易度这些方面都取得了卓越的效果，效率高且鲁棒性强，能克服复杂的图片背景，另外也能检测图像中非拉丁文字的长文本。
搜索关键词：	一种基于连接文字自然图片多方文本检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于连接文字段的自然图片中多方向文本检测方法，其特征在于，所述方法包括下述步骤：(1)训练文字段连接检测网络模型，包括如下子步骤：(1.1)以词条级别标记训练图像集中所有文本图像的文本内容，标签为词条的矩形初始包围盒的四个点坐标，得到训练数据集；(1.2)定义用于根据词条标签可以预测输出文字段和连接的文字段连接检测网络模型，所述文字段连接检测网络模型由级联卷积神经网络和卷积预测器组成，根据上述训练数据集计算得到文字段和连接的标签，设计损失函数，结合在线扩增和在线负样本难例挖掘方法，利用反向传导方法训练该文字段连接检测网络，得到文字段连接检测网络模型；(2)利用训练好的上述文字段连接检测网络模型对待检测文本图像进行文字段和连接检测，包括如下子步骤：(2.1)对待检测文本图像进行文字段检测，由不同卷积层输出的特征图预测出不同尺度的文字段，由同一卷积层输出的特征图预测出相同尺度的文字段；(2.2)对待检测文本图像检测出的所有特征层上的文字段进行连接检测，所述连接包括层内连接和跨层连接；(2.3)将检测得到的文字段的置信度得分和连接置信度得分组合，其中文字段置信度得分包括文字段正负类别得分和偏移量得分，利用卷积预测器输出softmax标准化得分；(3)组合文字段和连接，得到输出包围盒，包括如下子步骤：(3.1)根据(2.3)中检测得到的标准化得分，过滤卷积预测器输出的文字段和连接，以过滤后的文字段作为节点，以连接作为边，构建连接图；(3.2)在图上执行深度优先搜索以找到相互连接的组件，每个组件记作集合S，包含由连接相连起来的文字段；(3.3)将一个集合中的文字段组合成一个完整的词条，计算完整的词条包围盒并输出。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华中科技大学，未经华中科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710010596.7/，转载请声明来源钻瓜专利网。

上一篇：基于特征匹配的目标实时识别方法
下一篇：基于粒子群优化算法的视频流特征选择与分类方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于连接文字段的自然图片中多方向文本检测方法有效

专利文献下载