[发明专利]一种基于深度学习的图片倾斜文本检测方法在审
申请号: | 202011452286.9 | 申请日: | 2020-12-10 |
公开(公告)号: | CN112541492A | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 周仁杰;范晴;任永坚;万健;张纪林;赵乃良;殷昱煜;蒋从锋;郭星宇;金振明 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/34;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱亚冠 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 图片 倾斜 文本 检测 方法 | ||
本发明公开一种基于深度学习的图片倾斜文本检测方法。本发明针对CTPN模型无法检测倾斜文本的问题,提出一种新文本线构造法,通过对每个小候选框的上边界点、中心点和下边界点分别拟合三条直线,生成检测框的上边界、中心线和下边界,做中心线的垂线生成检测框的左右边界,以此方法生成完整的文本检测框。通过使用本发明中的文本线构造方法可以检测图像中具有倾斜角度的文本行,去除传统检测水平文本行中生成的大量背景,大幅提高了检测模型的准确性和可扩展性,也避免了在后续识别阶段引入不必要的噪声。
技术领域
本发明涉及一种图片文本检测方法,更具体地说,本发明涉及计算机视觉领域,一种基于深度学习的图片倾斜文本检测方法。
背景技术
随着互联网和移动互联网技术的高速发展,越来越多的新型应用场景需要利用图像中的文字信息。文字相对于图像/视频中的其他内容,往往包含更强的语义信息,有更强的逻辑性和更概括的表达力。首先文字作为一种载体,包含着丰富而准确的高层语义信息,传达着人类的思想和情感,一般的图像或视频信息很难直接描述,但是文字可以做到。其次文字是视觉识别的重要线索,借助图片或视频中的文字可以精确获知一些信息,同时文字与其他视觉线索(边缘、颜色、纹理等)有着非常强的互补作用。因此从海量的图片中快速检索感兴趣的文字可以极大提高人们的认知效率。文字检测是在图片中定位文字的过程,通常出于场景文本识别系统的第一步,其结果直接影响到后续文字识别的性能。此外,检测的输入是整张图片,相对的计算耗时也更多,容易成为系统的性能瓶颈。因此,场景文字检测在识别系统中地位关键。
近年来,随着深度学习的兴起和发展,计算机视觉得到了极大的改变和重塑,作为计算机视觉领域的一个重要研究领域,图片文字的检测和识别已经受到这股革命浪潮的影响,从而进入了深度学习的时代,同时这方面的研究在思维、方法和效果上取得了重大进展。基于深度学习的文本检测算法步骤简单,不需要人工手动提取特征,节省时间,同时检测效果也优于传统算法,目前很多对文字检测算法的研究从传统算法转移到深度学习上。
其中,卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。1998年,Yann LeCun提出了卷积神经网络LeNet5,并将其用于手写数字识别,它的出现标志着卷积神经网络的真正问世,LeNet5的网络结构十分简单且单一。2012年,Alex Krizhevsky提出了AlexNet网络,相比传统的CNN,AlexNet提出了数据增强,通过水平翻转图片、随机裁剪、平移转换、颜色光照变换等方式增加训练集数据量,增加了Dropout方法,按照一定的概率将神经元从网络中丢弃,防止训练过拟合,用Relu激活函数代替传统的Sigmoid函数,避免或抑制网络训练时的梯度消失现象,网络模型的收敛速度会相对稳定,提出了LRN(Local ResponseNormalization,局部响应归一化)层,利用临近的数据做归一化,对局部神经元的活动创建竞争机制,增强了模型的泛化能力。AlexNet提出诸多创新方法,促使了神经网络研究浪潮,对于卷积神经网络具有里程碑式的意义。2014年,牛津大学计算机视觉组和GoogleDeepMind项目的研究员共同研发的卷积神经网络,包含VGG16和VGG19两种模型网络,VGG16相比AlexNet类的模型具有较深层次的网络结构,包含了16个卷积层和全连接层,神经网络结构简单,拓展性很强,迁移到其他图片上泛化性非常好。
传统文字检测模型中,Qiao等人提出深度神经网络CTPN(Connectionist TextProposal Network,连接文本提议网络),CTPN是一个全卷积网络,以任意尺寸的图像为输入,能够直接在卷积层中定位文本行。它设定了Anchor机制,即将文本行拆分成很小的片段进行检测,加入双向LSTM学习文本的序列特征,最后将这些小片段用文本连接算法输出检测的文本行。CTPN模型可以获取到文本行的上下文信息,使得文本检测更加可靠,同时可兼容多语言或多尺寸的文本检测,并且模型的整体结构较简洁。但是模型只对横向分布的文本行检测效果较好,不能检测有倾斜角度的文本行。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011452286.9/2.html,转载请声明来源钻瓜专利网。