[发明专利]一种复杂环境下多层级多尺度融合的文字检测方法有效
申请号: | 201910781042.6 | 申请日: | 2019-08-23 |
公开(公告)号: | CN110516669B | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 袁媛;王琦;刘琛 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V10/24;G06V10/774;G06V10/82;G06K9/62;G06N3/04 |
代理公司: | 西安凯多思知识产权代理事务所(普通合伙) 61290 | 代理人: | 康进兴 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 复杂 环境 多层 尺度 融合 文字 检测 方法 | ||
本发明涉及一种复杂环境下多层级多尺度融合的文字检测方法,可以有效解决复杂背景环境下(多变光照、多变对比度等)的文本定位与检测问题,训练速度快,检测精度率高,达到了77%以上。针对各类自然场景下的包含多种形状与多种尺度文本的图片,该方法具有高效、精准、简单等特点。
技术领域
本发明属于计算机视觉,图形处理技术领域,具体涉及一种复杂环境下多层级多尺度融合的文字检测方法。
背景技术
复杂场景下的文字检测对于智能交通、票据识别、等等有重要作用,但是由于在现实条件下,待检测的文字图片往往是在复杂场景下获取的,有可能会遇到图片质量不佳、字体模糊、文本弯曲、对比度过低、不同字体等等干扰因素。同时因为文本在图片中有别于一般的目标,单词或者一行文本之间的形状差异(如不同长度)极大,同时在复杂环境下文本的检测面临目标尺寸的变化大的问题。
针对上述问题,通用目标检测的基础上,针对文本检测的方法一般具有两种,一种是检测目标中心点的位置,基于中心点提出多种尺寸和形状的候选框,然后去寻找候选框里面最合适的一个;另一种是不考虑候选框而直接输出基于它的坐标回归点。
基于候选框的文本检测有等人在文献“J.Ma,W.Shao,H.Ye,L.Wang,H.Wang,Y.Zheng,and X.Xue,“Arbitrary-oriented scene text detection via rotationproposals,”IEEE Transactions on Multimedia,vol.20,no.11,pp.3111-3122,2018.”中提出了使用一种旋转区域候选框网络生成带倾斜角度的候选框来应对文本的形状多变的问题。
基于直接回归坐标点的方法有等人在文献“X.Zhou,C.Yao,H.Wen,Y.Wang,S.Zhou,W.He,and J.Liang,“EAST:an efficient and accurate scene text detector,”in Proc.IEEE Conf.conference on Computer Vision and Pattern Recognition,2017,pp.5551-5560.”中提出了一种直接预测文本行、去除生成候选框网络的中间步骤步的简单有效的网络。
这些方法都有其局限性。面对多尺度文本检测的时候,难以有效利用多尺度的特征信息,同时模型参数多、网络结构复杂,所以实用性不强。
发明内容
本发明解决的技术问题是:为了解决了现有的场景文字检测算法对于该特定问题的局限性,本发明涉及一种复杂环境下多层级多尺度融合的文字检测方法。
本发明的技术方案是:一种复杂环境下多层级多尺度融合的文字检测方法,包括以下步骤:
步骤一:训练阶段,包括以下子步骤:
子步骤一:将有标签的训练图片通过旋转、翻转、改变明暗三种方式的组合进行图像数据扩充,抽取全部数据的30%进行上述三种操作,得到扩充图像数据。将其合并入原始图像数据形成新的扩大图像数据集用于后续操作;
子步骤二:对于子步骤一中获得的扩大图像数据集样本图像,将其输入ResNetXt-101网络;分别抽取ResNetXt-101网络的“conv1”、“conv2_1”、“conv3_1”、“conv3_4”、“conv4_3”、“conv4_12”、“conv4_20”、“conv5_3”这8个层的输出特征,这些特征就是不同尺度的深度特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910781042.6/2.html,转载请声明来源钻瓜专利网。