[发明专利]一种融合文字图像中文字区域边缘信息的文字检测方法有效
申请号: | 201910855189.5 | 申请日: | 2019-09-10 |
公开(公告)号: | CN110738207B | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 彭博;高子平;李天瑞 | 申请(专利权)人: | 西南交通大学 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/34;G06K9/40;G06N3/04;G06N3/08;G06T7/11;G06T7/187;G06T7/194 |
代理公司: | 成都东恒知盛知识产权代理事务所(特殊普通合伙) 51304 | 代理人: | 何健雄;廖祥文 |
地址: | 610000*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 文字 图像 区域 边缘 信息 检测 方法 | ||
本发明公开了一种融合文字图像中文字区域边缘信息的文字检测方法(Fusing Text Edge Semantics,FTES)。该方法将一幅图像划分成文字区域、边缘区域和背景区域。FTES使用FTES‑Net语义分割网络对包含文字的图像多次进行迭代学习,学习完成的FTES‑Net语义分割网络把一幅输入图像映射到包含文字语义区域、边缘语义区域和背景语义区域的语义分割图。从语义分割图中提取文字语义区域分割图,通过连通区域分析和孔洞分析,删除文字语义区域分割图中面积较小的连通区域和孔洞区域,在对文字语义区域分割图进行图像扩张运算和轮廓检测,获取到文字边缘轮廓。与现有技术相比,提出了一种新图像文字检测方法可以检测图像中任意形状的文字区域。
技术领域
本发明涉及自然场景图像文字检测技术领域,特别涉及一种融合文字图像中文字区域边缘信息的文字检测方法。
背景技术
图像文字可以反映出一幅图像的含义和内容。场景文本检测对于图像理解和检索具有重要价值。场景文本过程主要分为两部分:文本检测和文本识别。文本检测为定位文字区域在图像中的详细位置,文本识别为识别区域中为何种字符或文字。文本检测是场景文本处理的第一步,对文本识别的准确性至关重要。近年来,由于自然场景文本检测在互联网行业的成功应用,场景文本检测成为自动驾驶,场景理解和产品搜索的研究热点。
自然场景文本检测与传统的OCR不同,场景文本检测面临多张字体,字体大小不一和背景复杂等各种挑战。传统的文本检测方法通常需要结合候选区域生成和过滤,区域合并等一系列处理,这导致需要多个模块来协调工作,运行时间变长和优化困难。随着神经网络和语义分割的发展,大量优秀模型被应用到文本检测的领域。
场景文本检测可以分为两个分支。第一个分支是基于边框回归的方法。CTPN是一种使用Faster r-cnn改进后的文本检测方法,可以检测多个小型文本框然后合成文本区域,但仅可用于检测垂直和水平文本。RRPN在CTPN的基础上将文字区域旋转角度添加到标签信息中,可以检测旋转的四边形文字区域。Textboxes++删除了Textboxes的全连接层,整个网络结构只有卷积和池化操作,可以实现多尺度输入,检测不同大小的文字区域。Seglink使用SSD模型并整合了CTPN小型候选框方法,提出whthin-layer和cross-layer用于检测任意角度的四边形文本区域。EAST通过直接回归四边形文本框顶点在图像中的位置,消除了不必要的中间步骤(获得候选区域和文本分割),其精度更高、速度更快。CTPN、RRPN、Textboxes++和Seglink等方法都采用回归线性文本坐标点来定位文本区域。然而,对于任意形状的非线性文本区域,这些方法难以获得较好的性能。
文本检测另一个分支是语义分割,这是近年来流行的一种方案。文字/非文字区域被分成不同类别的语义区域。但对于一些文字区域密集的文字图像,通过对文字区域、背景区域进行二分类语义处理会出现文字区域非常靠近、乃至重叠的情况。在这种情况下,文字/非文字区域分割将非常困难,有时甚至不可能执行语义分割。因此,解决文字区域邻近或重叠问题对文字检测非常重要。Mask textspotter是一个基于Mask r-cnn的文本字符实例分割方法,但在一幅图像中文本区域的数量是不确定的,并且难以表示具有不同实例的不同区域。PSENet预测了多个不同大小的分割结果,然后使用小分割语义图扩展与大分割语义图合并,最终产生与真实文本区域相同大小的分割语义图。
为更好地解决文本检测中文本区域的邻近和重叠问题,本发明采用一种融合文本边缘语义方法(Fusing Text Edge Semantics,FTES),将图像中所有文字区域添加了轮廓框,把一幅图像划分为文本,边缘和背景三个语义区域,将文字区域检测转化为三分类的语义分割问题。首先使用FTES-Net语义分割网络提取语义分割图,然后从语义分割图中提取文字语义区域分割图,通过连通区域分析和孔洞分析,删除文字语义区域分割图中面积较小的连通区域和孔洞区域,在对文字语义区域分割图进行图像扩张运算和轮廓检测,提取文字边缘轮廓实现检测图像中任意形状的文字区域。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学,未经西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910855189.5/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序