[发明专利]一种文字大小检测方法、装置及存储介质在审
申请号: | 202111218974.3 | 申请日: | 2021-10-19 |
公开(公告)号: | CN114140606A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 梁继允;冯南飞;张哲;朱正元;谭晓悦;杨紫晴 | 申请(专利权)人: | 深圳赛西信息技术有限公司 |
主分类号: | G06V10/22 | 分类号: | G06V10/22;G06V10/24;G06V30/10;G06V10/764;G06N3/04 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 冯健良 |
地址: | 518000 广东省深圳市南山区粤海*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文字大小 检测 方法 装置 存储 介质 | ||
本发明公开了一种文字大小检测方法、装置及存储介质,包括获取文字数据;对文字数据中的每个文字进行检测并做文本框标记,识别得到文字的类别、文本框的第一坐标信息和文字的旋转角度;根据第一坐标信息和旋转角度,对文字进行角度矫正,并得到第二坐标信息;根据第二坐标信息,转换得到文字的字号大小;提高了检测效率和精准度,节约了人力物力,模型体积小,速度较快,精度高,泛化能力强,通用性好,稳定性佳。
技术领域
本发明涉及数据处理领域,特别是一种文字大小检测方法、装置及存储介质。
背景技术
在现有的文字大小检测技术中,主要分为两大类:一类是基于传统图像处理算法实现的,另一类则是基于深度学习的算法实现的。基于传统图像处理算法实现的文字检测方法,其速度较快,对硬件要求也不高,但其检测精度较差,泛化能力不强,表现很不稳定,通常只能适应一种特定场景或格式。基于深度学习的文字检测算法,其精度高,检测到的文本框更贴近实际区域,泛化能力较强,通用性更好,稳定性更佳;然而,但也存在模型体积较大、漏检的问题。
发明内容
本发明的目的在于至少解决现有技术中存在的技术问题之一,提供一种文字大小检测方法、装置及存储介质。
本发明解决其问题所采用的技术方案是:
本发明的第一方面,一种文字大小检测方法,包括:
获取文字数据;
对所述文字数据中的每个文字进行检测并做文本框标记,识别得到所述文字的类别、所述文本框的第一坐标信息和所述文字的旋转角度;
根据所述文本框的第一坐标信息和所述文字的旋转角度,对所述文字进行角度矫正,并得到经角度矫正后的所述文本框的第二坐标信息;
根据所述第二坐标信息,转换得到所述文字的字号大小。
根据本发明的第一方面,所述文本框标记为矩形文本框,所述文本框贴合所述文字设置。
根据本发明的第一方面,所述识别得到所述文字的类别、所述文本框的第一坐标信息和所述文字的旋转角度,包括:
对所述文字数据进行特征提取,得到目标特征;
根据所述目标特征进行分类,得到所述文字的类别、所述文本框的第一坐标信息和所述文字的旋转角度。
根据本发明的第一方面,所述对所述文字数据进行特征提取,得到目标特征,包括:
将所述文字数据输入依次连接的多个特征提取子模块进行特征提取,将最后一个所述特征提取子模块的输出作为所述目标特征,其中前一个所述特征提取子模块的输出作为后一个所述特征提取子模块的输入。
根据本发明的第一方面,在每个所述特征提取子模块中执行以下步骤:
将输入数据从通道层面分割成多个第一子数据;
对每个所述第一子数据,将所述第一子数据输入至注意力模块中,将所述第一子数据从通道层面分割成多个第二子数据,对每个所述第二子数据进行卷积计算得到卷积结果,将多个所述卷积结果进行注意力计算得到注意力结果;
将多个所述注意力结果与所述输入数据进行拼接,得到拼接结果作为所述特征提取子模块的输出。
根据本发明的第一方面,所述文字数据为包含有文字的图片。
根据本发明的第一方面,所述文本框的第一坐标信息包括所述文本框的第一角的横坐标和纵坐标以及所述第一角的对角的横坐标和纵坐标;所述根据所述文本框的第一坐标信息和所述文字的旋转角度,对所述文字进行角度矫正,并得到经角度矫正后的所述文本框的第二坐标信息,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳赛西信息技术有限公司,未经深圳赛西信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111218974.3/2.html,转载请声明来源钻瓜专利网。