[发明专利]基于新型图像收缩方法的多方向文本检测方法在审
申请号: | 202111369003.9 | 申请日: | 2021-11-11 |
公开(公告)号: | CN114049625A | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 王琦;韩旭;袁媛 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V10/25;G06V10/44;G06V10/26;G06V10/774;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 常威威 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 新型 图像 收缩 方法 多方 文本 检测 | ||
本发明提供了一种基于新型图像收缩方法的多方向文本检测方法。首先,对数据集中的训练集图像进行增强和归一化预处理;然后,采用收缩处理得到图像的文本核心区域标签;接着,构建文本检测网络并进行网络训练,通过特征提取、特征融合、二值化和区域处理,预测得到文本区域和文本核心区域;最后,将测试集图像输入训练好的网络,得到文本检测结果。本发明通过采用新型的文本核收缩方式,在分离相邻文本实例的前提下,能够大大提高自然场景下多方向文本检测的能力。
技术领域
本发明属计算机视觉、图形处理技术领域,具体涉及一种基于新型图像收缩方法的多方向文本检测方法。
背景技术
自然场景下的文本检测是自然场景下文本识别的重要步骤,虽然传统的OCR光学识别技术已经日渐成熟,但对于自然场景下的文本检测与识别任务来说,仍存在着很多难题。复杂多变的自然场景背景,对文本检测与识别带来了很大的困扰,例如建筑物的标志和花纹,与文本很类似,容易造成错误识别,而且很多拍摄的图片存在光照不同、物体遮挡等问题,为文本检测与识别增加了难度。
Zhou X等在文献“Zhou,X.,Yao,C.,Wen,H.,Wang,Y.,Zhou,S.,He,W.,Liang,J.(2017).East:an efficient and accurate scene text detector.In Proceedings ofthe IEEE conference on Computer Vision and Pattern Recognition(pp.5551-5560).”中提出采用U-net的方法进行特征合,并根据不同文本形状输出水平矩形和多方向矩形以及其分数,利用Locality-Aware NMS对结果进行过滤,这种网络结构对多层次的特征融合效果并不好,在数据集上的表现也不好。Liao M等在文献“Liao M,Shi B,Bai X,etal.Textboxes:A fast text detector with a single deep neural network[C]//Proceedings of the AAAI conference on artificial intelligence.2017,31(1).”中提出了通过修改默认框以及卷积核来有效捕捉文本的Textboxes方法,具体基于全连接的神经网络,直接输出文本框的坐标,同时预测文本存在以及文本框偏移,最后是一个非最大化抑制处理。但是对于一些长宽比特别大的文本检测效果不好。Wang W等在文献“Wang W,Xie E,Li X,et al.Shape robust text detection with progressive scale expansionnetwork[C]//Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition.2019:9336-9345.”中提出了一种先收缩再扩张的分割方法,采用根据面积与周长比来进行文本收缩的方法,通过求得文本的七个层次的核心区域,层层扩张,称为PSE(progressive scale expansion)方法,用来解决传统分割相邻实例边缘粘连问题,但还是有同一文本实例因字符相距太远而被预测为多个文本实例的问题。
发明内容
为了克服现有技术的不足,本发明提供一种基于新型图像收缩方法的多方向文本检测方法。首先,对数据集中的训练集图像进行增强和归一化预处理;然后,采用收缩处理得到图像的文本核心区域标签;接着,构建文本检测网络并进行网络训练,通过特征提取、特征融合、二值化和区域处理,预测得到文本区域和文本核心区域;最后,将测试集图像输入训练好的网络,得到文本检测结果。本发明通过采用新型的文本核收缩方式,在分离相邻文本实例的前提下,能够大大提高自然场景下多方向文本检测的能力。
一种基于新型图像收缩方法的多方向文本检测方法,其特征在于步骤如下:
步骤1:对文本图像数据集ICDAR2015的训练集中的每一幅图像进行增强处理,再进行归一化处理,得到训练用数据;所述的增强处理包括随机旋转和随机裁剪;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111369003.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型光伏组件的组装工艺
- 下一篇:一种双足机器人下肢结构及其运动方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序