[发明专利]文本检测方法及装置、电子设备和存储介质在审
申请号: | 201910577251.9 | 申请日: | 2019-06-28 |
公开(公告)号: | CN110569708A | 公开(公告)日: | 2019-12-13 |
发明(设计)人: | 刘敬超;刘学博;梁鼎 | 申请(专利权)人: | 北京市商汤科技开发有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 11277 北京林达刘知识产权代理事务所(普通合伙) | 代理人: | 刘新宇 |
地址: | 100084 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本区域 预测 掩码信息 多面体 掩码 文本检测 像素点 图像 底面 存储介质 电子设备 倾斜侧面 特征图 构建 检测 | ||
本公开涉及一种文本检测方法及装置、电子设备和存储介质,所述方法包括对图像执行文本检测处理,得到所述图像的预测文本区域;对所述预测文本区域对应的第一特征图执行处理,得到所述预测文本区域的预测掩码信息,所述预测掩码信息包含所述预测文本区域中多个像素点的掩码值,所述掩码值为大于或者等于零且小于或者等于1的数值;基于所述预测掩码信息包含的所述预测文本区域的多个像素点的掩码值,构建多面体,所述多面体包括与所述预测文本区域对应的底面以及与所述底面连接的多个倾斜侧面;基于所述多面体,得到所述图像的最终文本区域。本公开实施例可实现文本区域的精确检测。
技术领域
本公开涉及计算机视觉技术领域,尤其涉及一种文本检测方法及装置、电子设备和存储介质。
背景技术
图像文本识别在众多领域中都有所应用,例如交通标志识别、场景文字翻译、盲人辅助交互等场景感知情境,卡片信息识别、税务信息录入、病例数字存档等表单识别情境,学习笔记检索、视频信息查询等媒体快速语义检索情境,等等。目前的文字检测技术的精度需要进一步提高。
发明内容
本公开提出了一种文本检测的技术方案。
根据本公开的一方面,提供了一种文本检测方法,包括:对图像执行文本检测处理,得到所述图像的预测文本区域;对所述预测文本区域对应的第一特征图执行处理,得到所述预测文本区域的预测掩码信息,所述预测掩码信息包含所述预测文本区域中多个像素点的掩码值,所述掩码值为大于或者等于零且小于或者等于1的数值;基于所述预测掩码信息包含的所述预测文本区域的多个像素点的掩码值,构建多面体,所述多面体包括与所述预测文本区域对应的底面以及与所述底面连接的多个倾斜侧面;基于所述多面体,得到所述图像的最终文本区域。
在一些可能的实现方式中,基于所述多面体的多个倾斜侧面,确定所述图像的最终文本区域。
在一些可能的实施方式中,所述基于所述预测掩码信息包含的所述预测文本区域的多个像素点的掩码值,构建多面体,包括:以所述预测掩码信息包含的多个像素点中每个像素点的掩码值作为所述每个像素点对应的高度,构建多面体。
在一些可能的实施方式中,所述基于所述预测掩码信息包含的所述预测文本区域的多个像素点的掩码值,构建多面体,包括:基于所述预测文本区域的多个像素点中每个像素点在所述图像中的位置以及所述预测掩码信息中包含的所述每个像素点的掩码值,得到所述每个像素点的三维坐标;基于所述多个像素点中每个像素点的三维坐标,构建多面体。
在一些可能的实施方式中,所述基于所述预测掩码信息包含的所述预测文本区域的多个像素点的掩码值,构建多面体,包括:将所述预测文本区域的多个像素点中掩码值达到第一阈值的像素点作为正像素点;基于所述预测文本区域的多个正像素点的位置以及预设高度值,确定所述多面体的侧面顶点;基于所述预测文本区域和所述侧面顶点,构建所述多面体。
在一些可能的实施方式中,所述多面体为棱锥体。
在一些可能的实施方式中,所述基于所述多面体,得到所述图像的最终文本区域,包括:对所述多面体执行基于平面聚类的优化处理,得到优化后的多面体;基于优化后的多面体,得到所述图像的最终文本区域。
在一些可能的实施方式中,所述基于优化后的多面体,得到所述图像的最终文本区域,包括:基于所述优化后的多面体包含的多个侧面与所述多面体的底面的交集,得到所述图像的最终文本区域。
在一些可能的实施方式中,对所述多面体执行基于平面聚类的优化处理,得到优化后的多面体,包括:对所述预测掩码信息中包含的多个正像素点进行平面聚类,得到所述多个正像素点中每个正像素点所属的侧面;基于所述多个侧面中每个侧面包括的正像素点,对所述多个侧面进行迭代更新,得到优化后的多个侧面,其中,所述优化后的多面体包括所述优化后的多个侧面。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司,未经北京市商汤科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910577251.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种身份识别方法和电子设备
- 下一篇:一种基于知识重组的场景解析方法