[发明专利]文本检测模型的生成方法和文本检测方法有效
申请号: | 202110180236.8 | 申请日: | 2021-02-09 |
公开(公告)号: | CN112528976B | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 秦勇 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/34;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 郭丽祥;武晨燕 |
地址: | 100086 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 检测 模型 生成 方法 | ||
本申请实施例提供了一种文本检测模型的生成方法、文本检测方法、装置、存储介质和计算设备。文本检测模型的生成方法包括:构建待训练的第一子模型,使用多个经过标注的文本图像作为训练数据,对第一子模型进行训练;构建待训练的第二子模型,对训练后的第一子模型输出的图像标注文本行的位置类别后作为训练数据,对第二子模型进行训练,训练时保持第二残差网络的参数不变,对两个级联的全连接层的参数调优,达到停止条件后停止训练;将训练后的第一子模型和训练后的第二子模型级联,得到文本检测模型。利用本申请实施例能够实现对密集文本的快速检测。
技术领域
本申请涉及文本检测技术领域,具体涉及一种文本检测模型的生成方法、文本检测方法、装置、存储介质和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
当前“文本检测”技术应用范围广泛,是很多计算机视觉任务的前置步骤,例如图像搜索、文字识别、身份认证、视觉导航等,文本检测的主要目的是定位文本行或字符在图像中的位置。相较于通用目标的检测而言,文字具有多方向、不规则形状、极端长宽比、字体、颜色、背景多样等特点,因此对文本的精准定位既十分重要又具有挑战性。
目前常见的文本检测方法大致包括两类,一类方案是基于滑动窗口的文本检测,基于通用目标检测的思想,设置大量不同长宽比、不同大小的锚点框,以锚点框为滑动窗口在图像上或图像经过卷积操作后的特征映射图上进行遍历搜索,对于每个搜索到的位置框,判断框内是否存在文本,该方法的优点是文本框判定后不需要复杂的后处理,缺点是计算量大,耗费计算资源且耗时较长;另一类方案是基于计算连通域(或称基于分割思想)的方法,使用全卷积神经网络模型提取图像特征,对特征图进行二值化并计算其连通域,然后根据不同应用场景(对应不同种类的训练数据集)使用特定方法判断文本行位置,该方法的优点是计算量小、计算速度快,缺点是后处理步骤繁琐,涉及大量后处理阶段的计算和调优,后处理策略是否合理对算法整体的性能形成重要制约,存在较大优化空间。
关于文本检测,当前还出现了例如“像素聚合网络”和“可微分二值化法”等的解决方案,它们在一些开放环境的场景文本检测中具有不错的表现,速度非常快,但是在某些特定的密集文本场景下,处理速度受文本框数量的影响非常大,几乎随文本框数量的增长而呈线性下降趋势,难以满足实际应用场景的速度需求。
发明内容
本申请期望提供一种文本检测模型的生成方法、文本检测方法、装置、存储介质和计算设备,以至少解决上述一种技术问题。
第一方面,本申请实施例提供一种文本检测模型的生成方法,包括:
构建待训练的第一子模型,其包括:第一残差网络、两个级联的特征金字塔增强模块FPEM模块、上采样处理模块、卷积处理模块和反卷积处理模块;
使用多个经过标注的文本图像作为训练数据,对所述第一子模型进行训练,训练过程包括:将经过标注的文本图像输入所述第一残差网络进行特征提取,提取得到的特征通过所述两个级联的FPEM模块处理后得到四组特征映射,所述上采样处理模块对所述四组特征映射对应的特征图分别上采样至特征图的1/4大小并进行串联,所述卷积处理模块和所述反卷积处理模块依次对串联的图像进行一次卷积操作和两次反卷积操作,得到特征映射通道数为3的特征映射图,其中,第一个通道对应内缩文本区域的概率图,第二个通道对应真实文本区域概率图,第三个通道对应真实文本区域阈值图;达到停止条件后停止训练;
构建待训练的第二子模型,其包括:第二残差网络和两个级联的全连接层,所述第二残差网络复用训练后的第一残差网络的参数;
对训练后的第一子模型输出的图像标注文本行的位置类别后作为训练数据,对所述第二子模型进行训练,训练时保持所述第二残差网络的参数不变,对所述两个级联的全连接层的参数调优,达到停止条件后停止训练;
将训练后的第一子模型和训练后的第二子模型级联,得到文本检测模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110180236.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种预制L形混凝土多层多阶梯挡土墙
- 下一篇:一种在线教育平台云资源管理系统