[发明专利]密集文本的检测方法及装置在审
申请号: | 202110944167.3 | 申请日: | 2021-08-17 |
公开(公告)号: | CN115880706A | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 赵佳鹏 | 申请(专利权)人: | 广州视源电子科技股份有限公司;广州视源人工智能创新研究院有限公司 |
主分类号: | G06V30/414 | 分类号: | G06V30/414;G06V30/148;G06V10/764;G06V10/82;G06V10/766;G06N3/045;G06N3/0442;G06N3/08 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 孙静;臧建明 |
地址: | 510530 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 密集 文本 检测 方法 装置 | ||
1.一种文本检测模型的训练方法,其特征在于,所述方法包括:
获取密集本文图像,所述密集文本图像中包含有文字之间紧密排列的密集文本,所述密集文本上标注有文本框;
将所述密集本文图像中的文本框切割为多个子文本框;
将所述密集本文图像和所述子文本框作为样本数据集,对所述文本检测模型进行训练;
将待检测图像输入所述文本检测模型中,并获取所述文本检测模型输出的所述待检测图像的初步预测文本框。
2.根据权利要求1所述的方法,其特征在于,所述将所述密集本文图像中的文本框切割为多个子文本框,包括:
根据所述子文本框的预设高度,以所述文本框中心往上下方向,将所述文本框切割为多个子文本框。
3.根据权利要求2所述的方法,其特征在于,在所述将所述文本框切割为多个子文本框之后,所述方法还包括:
若所述文本框的上下边界所切割出的子文本框的高度小于所述子文本框的预设高度,则将所述文本框的上下边界所切割出的子文本框填补至高度等于所述子文本框的预设高度。
4.根据权利要求1所述的方法,其特征在于,所述将所述密集本文图像和所述子文本框作为样本数据集,对所述文本检测模型进行训练,包括:
通过所述文本检测模型的卷积层对所述密集本文图像进行特征提取,生成所述密集本文图像的第一特征图;
根据所述密集本文图像的第一特征图,利用锚点回归机制生成所述密集本文图像的候选参考框;
将所述候选参考框与所述子文本框进行匹配,确定所述候选参考框与所述子文本框的交并比参数;
根据所述交并比参数,确定所述候选参考框是否作为锚点参考框进行回归。
5.根据权利要求4所述的方法,其特征在于,所述根据所述交并比参数,确定所述候选参考框是否作为锚点参考框进行回归,包括:
若所述交并比参数大于阈值、所述候选参考框在y轴方向的最大值大于等于上边界切割出的子文本框在y轴方向的最小值、所述候选参考框在y轴方向的最小值小于等于下边界切割出的子文本框在y轴方向的最大值,则确定所述候选参考框作为锚点参考框进行回归。
6.根据权利要求4所述的方法,其特征在于,所述将所述密集本文图像和所述子文本框作为样本数据集,对所述文本检测模型进行训练,还包括:
将所述密集本文图像的第一特征图的第一特征区域的特征向量转换为水平序列特征向量,生成第二特征图;
将所述第二特征图形变后输入所述文本检测模型的双向长短期记忆网络层进行特征学习。
7.根据权利要求4所述的方法,其特征在于,所述将所述密集本文图像和所述子文本框作为样本数据集,对所述文本检测模型进行训练,还包括:
通过所述文本检测模型的区域候选网络层对所述锚点参考框进行分类和回归。
8.根据权利要求7所述的方法,其特征在于,所述锚点参考框的类别信息包括文本信息、非文本信息和边界信息。
9.根据权利要求1所述的方法,其特征在于,在所述将所述待检测图像输入文本检测模型中,并获取所述文本检测模型输出的所述待检测图像的初步预测文本框之后,所述方法还包括:
使用预设算法对所述初步预测文本框进行多余框清除;
将多余框清除后的初步预测文本框进行合并,生成最终预测文本框。
10.根据权利要求9所述的方法,其特征在于,所述预设算法包括非极大值抑制算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州视源电子科技股份有限公司;广州视源人工智能创新研究院有限公司,未经广州视源电子科技股份有限公司;广州视源人工智能创新研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110944167.3/1.html,转载请声明来源钻瓜专利网。