[发明专利]用于检测文本的方法和装置在审
申请号: | 202210328565.7 | 申请日: | 2022-03-30 |
公开(公告)号: | CN114677699A | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 李琳 | 申请(专利权)人: | 北京贝壳时代网络科技有限公司 |
主分类号: | G06V30/414 | 分类号: | G06V30/414;G06V30/148;G06V30/19;G06V10/80;G06V10/82;G06K9/62;G06N3/04 |
代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 高英英 |
地址: | 101520 北京市密云区兴盛南路*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 检测 文本 方法 装置 | ||
本发明实施例提供一种用于检测文本的方法和装置,属于计算机视觉领域。该方法包括:将待检测文本的图像输入到预设卷积神经网络结构中,以得到图像被拆分成的多个候选框中的每一候选框的候选框信息;针对多个候选框中的任一候选框,基于该候选框的左边概率、右边概率和其他概率,确定该候选框位于左边界、右边界还是其他位置,以确定该候选框为左边框、右边框还是其他边框;以及针对任一左边框,根据左边框的基础参数确定配对右边框;以及基于左边框的基础参数和配对右边框的基础参数,确定一行文本区域检测框。藉此,实现减轻了耗时现象,提高了计算速度。
技术领域
本发明涉及计算机视觉领域,具体地涉及一种用于检测文本的方法和装置。
背景技术
自然场景文本检测是计算机视觉领域的一个重要方向。文本检测模型的目标是从图片中尽可能准确地找出文字所在区域。但是,常见目标检测方法(SSD、YOLO、Faster-RCNN等)直接用于文字检测任务的效果并不理想,因为相比于常规物体,文字行长度、长宽比例变化范围很大。为了解决这个问题,常用的方法是将文本行看成一个序列,而不是单个完整独立的目标;通过将文本序列拆分成许多小文本框分别进行检测,然后将属于同一个文本行的小文本框合并,从而得到一个完整的、大的文本框。以前方法(CTPN,Detecting Textin Natural Image with Connectionist Text Proposal Network等)通常需要预测很多个候选框,然后将重叠的候选框一一合并,参数量很大且非常耗时。而且在自然场景下,文本行很可能不是水平的,即具有一定的角度,常规的检测框bbox(x,y,w,h)无法精准的检测出文本行的位置。
发明内容
本发明实施例的目的是提供一种用于检测文本的方法和装置,其可实现解决或至少部分解决上述问题。
为了实现上述目的,本发明实施例的一个方面提供一种用于检测文本的方法,该方法包括:将待检测文本的图像输入到预设卷积神经网络结构中,以得到所述图像被拆分成的多个候选框中的每一候选框的候选框信息,其中,针对所述多个候选框中的任一候选框,所述候选框信息包括所述候选框的左边概率、所述候选框的右边概率、所述候选框的其他概率以及所述候选框的基础参数,其中,所述左边概率为所述候选框位于所述图像中的待检测文本区域的左边界的概率,所述右边概率为所述候选框位于所述待检测文本区域的右边界的概率,所述其他概率为所述候选框位于所述待检测文本区域中除所述左边界和所述右边界外的其他位置的概率;针对所述多个候选框中的任一候选框,基于该候选框的所述左边概率、所述右边概率和所述其他概率,确定该候选框位于所述左边界、所述右边界还是所述其他位置,以确定该候选框为左边框、右边框还是其他边框;以及针对任一所述左边框,根据所述左边框的基础参数确定配对右边框;以及基于所述左边框的基础参数以及所述配对右边框的基础参数,确定一行文本区域检测框,所述行文本区域检测框用于框选所述图像中从所述左边框至所述配对右边框的处于一行的所有文字。
可选地,所述候选框的基础参数包括所述候选框的中心点的坐标位置以及所述候选框的长度和宽度,所述针对任一所述左边框,基于所述左边框的基础参数以及所述配对右边框的基础参数,确定所述行文本区域检测框包括:基于左边中心点、右边中心点、所述左边框的所述长度和所述宽度以及所述配对右边框的所述长度和所述宽度,确定所述行文本区域检测框,其中,所述左边中心点为所述左边框的中心点,所述右边中心点为所述配对右边框的中心点。
可选地,针对任一所述左边框,以所述左边中心点和所述右边中心点确定第一线段,在所述第一线段的左侧延长所述左边框的所述长度的一半,并且在所述第一线段的右侧延长所述配对右边框的所述长度的一半,得到第二线段,将所述第二线段作为所述行文本区域检测框的中心线,所述行文本区域检测框的长度为所述第二线段的长度,所述行文本区域检测框的宽度为所述左边框的所述宽度和所述配对右边框的所述宽度的均值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京贝壳时代网络科技有限公司,未经北京贝壳时代网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210328565.7/2.html,转载请声明来源钻瓜专利网。