[发明专利]一种基于连接文字段的自然图片中多方向文本检测方法有效
申请号: | 201710010596.7 | 申请日: | 2017-01-06 |
公开(公告)号: | CN106897732B | 公开(公告)日: | 2019-10-08 |
发明(设计)人: | 白翔;石葆光 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08;G06K9/20 |
代理公司: | 武汉臻诚专利代理事务所(普通合伙) 42233 | 代理人: | 向彬 |
地址: | 430074 湖北省*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 连接 文字 自然 图片 多方 文本 检测 方法 | ||
本发明公开了一种基于连接文字段的自然图片中多方向文本检测方法,文字段和连接是该检测方法中关键的两个步骤,定义如下:文字段指的是在图片上划分出许多单个多方向的包围盒区域,它们包围着一个文字条或者单词的一部分;连接指的是将相邻的字段连接起来,意味着它们属于同一个单词或同一句话。文字段和连接合起来使用一个端到端训练的全卷积神经网络以多种尺度进行等间隔地检测。最后的检测结果是先连接多个文字段组成新区域,然后对这些新区域进行组合而得到的。本发明提出的检测方法相对于现有技术在准确率、速度和模型简易度这些方面都取得了卓越的效果,效率高且鲁棒性强,能克服复杂的图片背景,另外也能检测图像中非拉丁文字的长文本。
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种基于连接文字段的自然图片中多方向文本检测方法。
背景技术
读取自然图片中的文本是一个充满挑战的热门任务,在照片光学识别、地理定位和图像检索方面都有许多实际的应用。在文本读取系统中,文字检测就是在单词级别或文字条级别上以包围盒来定位文字区域,它通常都作为非常关键的第一步。从某种意义上而言,文字检测也可以视为一种特殊的物体检测,即将单词、字符或文字条作为检测的目标。
尽管已有的技术已经在将物体检测方法应用于文字检测上取得了极大的成功,但是物体检测方法在定位文字区域方面仍有几点明显的不足。第一,单词或文字条的长宽比通常都比一般物体要大的多,之前的方法难以产生这种比例的包围盒;第二,一些非拉丁语的文本在相邻单词之间并不包含空格,比如中文汉字。已有的技术都只能检测到单词,在检测这种文本时就会不适用,因为这种不包含空格的文本无法提供划分不同单词的视觉信息。第三,在大型自然场景图片中,文字可能是任意方向的,然而现有的技术绝大多数都只能检测水平方向的文字。因此自然场景图片中的文本检测仍然是计算机视觉技术领域的难点之一。
发明内容
本发明的目的在于提供一种基于连接文字段的自然图片中多方向文本检测方法,该方法检测文本准确率高,速度快,模型简易,且鲁棒性强,能克服复杂的图片背景,另外也能检测非拉丁文字的长文本。
为实现上述目的,本发明从一个全新的视角来解决场景文字检测问题,提供了一种基于连接文字段的自然图片中多方向文本检测方法,包括下述步骤:
(1)训练文字段连接检测网络模型,包括如下子步骤:
(1.1)以词条级别标记训练图像集中所有文本图像的文本内容,标签为词条的矩形初始包围盒的四个点坐标,得到训练数据集;
(1.2)定义用于根据词条标签可以预测输出文字段和连接的文字段检测模型,所述网络模型由级联卷积神经网络和卷积预测器组成,根据上述训练数据集计算得到文字段和连接的标签,设计损失函数,结合在线扩增和在线负样本难例挖掘技术手段,利用反向传导方法训练该网络,得到文字段检测模型,包括如下子步骤:
(1.2.1)构建文字段检测卷积神经网络模型:提取特征的前几层卷积单元来自预训练的VGG-16网络,前几层卷积单元为卷积层1到池化层5,全连接层6和全连接层7分别转换为卷积层6和卷积层7,连接在其后的是一些额外加入的卷积层,用于提取更深度的特征进行检测,包括卷积层8、卷积层9、卷积层10,最后一层是卷积层11;后6个不同的卷积层分别输出不同尺寸的特征图,便于提取出多种尺度的高质量特征,检测文字段和连接是在这六个不同尺寸的特征图上进行的;对于这6个卷积层,每一层之后都添加尺寸为3×3的滤波器作为卷积预测器,来共同检测文字段和连接;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710010596.7/2.html,转载请声明来源钻瓜专利网。