[发明专利]文本公式的定位方法、模型训练方法及相关装置有效
申请号: | 202011251708.6 | 申请日: | 2020-11-11 |
公开(公告)号: | CN112101359B | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 李保俊;刘涛;黄家冕;曾鹏;兴百桥 | 申请(专利权)人: | 广州华多网络科技有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 郭帅 |
地址: | 511442 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 公式 定位 方法 模型 训练 相关 装置 | ||
1.一种模型训练方法,其特征在于,所述方法包括:
获取图像样本,采用文本公式定位信息对所述图像样本进行标记,得到标记有文本公式定位信息的图像样本;
构建改进的Mask-RCNN网络,其中所述改进的Mask-RCNN网络包括ResNet网络、Attention-FPN网络、RPN网络、Faster R-CNN网络和Mask预测网络;其中,所述Attention-FPN网络是在FPN网络的自上而下连接结构和横向连接结构中加入注意力模块而形成的;
将所述标记有文本公式定位信息的图像样本输入所述ResNet网络进行卷积操作提取图像特征,并通过所述Attention-FPN网络进行特征融合得到多尺度特征图;
将所述多尺度特征图输入至所述RPN网络生成文本公式的候选区域;
采用所述Faster R-CNN网络和所述Mask预测网络对所述候选区域进行分类、定位和分割处理,得到图像样本的实际文本区域和/或实际公式区域;
根据所述文本公式定位信息来判断所述实际文本区域与目标文本区域的偏差,和/或所述实际公式区域与目标公式区域的偏差是否在预设范围内,若是,则训练完成,得到文本公式定位模型;其中,所述预设范围是一个预设的值。
2.根据权利要求1所述的方法,其特征在于,所述ResNet网络包括ResNet50网络,所述ResNet50网络与所述Attention-FPN网络中各层对应连接形成多层网络结构,所述多层网络结构包括自下而上连接结构、横向连接结构和自上而下连接结构,其中在所述横向连接结构和所述自上而下连接结构中的每一层间设有一个注意力模块;在通过所述Attention-FPN网络进行特征融合得到多尺度特征图的步骤中,包括:
通过所述注意力模块对不同层的特征图进行加权融合,得到多尺度特征图,其中不同层的特征图是通过所述ResNet50网络对图像样本进行图像特征提取生成的。
3.根据权利要求2所述的方法,其特征在于,在采用所述Faster R-CNN网络和所述Mask预测网络对所述候选区域进行分类、定位和分割处理,得到图像样本的实际文本区域和/或实际公式区域的步骤中,包括:
对所述候选区域进行分类,筛选出置信度大于第一预设阈值的候选区域;
对置信度大于第一预设阈值的候选区域进行非极大值抑制处理,筛选出重叠候选区域内概率值最大的候选区域;
对所述概率值最大的候选区域进行定位和分割处理,得到所述图像样本的实际文本区域和/或实际公式区域。
4.根据权利要求1-3任一项所述的方法,其特征在于,在将所述标记有文本公式定位信息的图像样本输入所述ResNet网络进行卷积操作提取图像特征的步骤之前,包括:
将所述标记有文本公式定位信息的图像样本的最长边调整至第二预设阈值,并对调整后的图像样本进行缩放处理。
5.根据权利要求4所述的方法,其特征在于,在将所述标记有文本公式定位信息的图像样本输入所述ResNet网络进行卷积操作提取图像特征的步骤之前,还包括:
按照预设选择概率选择一种或多种增强处理方法对缩放处理后的所述图像样本进行增强处理;
其中当选择多种增强处理方法时,每一种增强处理方法的运行顺序是随机的,所述增强处理方法包括对所述图像样本的RGB三通道进行随机变换顺序处理、亮度变换处理、压缩处理、运动模糊处理和添加噪声处理。
6.根据权利要求5所述的方法,其特征在于,所述压缩处理包括Jpeg压缩;按照预设选择概率选择一种或多种增强处理方法对缩放处理后的所述图像样本进行增强处理的步骤中,包括:
采用所述Jpeg压缩并按照预设压缩强度对缩放处理后的所述图像样本进行压缩处理。
7.一种文本公式的定位方法,其特征在于,所述方法包括:
获取待识别图像;
将所述待识别图像输入至文本公式定位模型,分别定位出所述待识别图像的文本区域和/或公式区域;其中,所述文本公式定位模型是采用权利要求1-6任一项所述模型训练方法训练得到的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州华多网络科技有限公司,未经广州华多网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011251708.6/1.html,转载请声明来源钻瓜专利网。