[发明专利]一种文本定位方法、装置及模型训练方法有效
申请号: | 202010132023.3 | 申请日: | 2020-02-29 |
公开(公告)号: | CN111476226B | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 尹世豪 | 申请(专利权)人: | 新华三大数据技术有限公司 |
主分类号: | G06V10/22 | 分类号: | G06V10/22;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 450000 河南省郑州市郑州高*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 定位 方法 装置 模型 训练 | ||
本发明提供了一种文本定位方法、装置及模型训练方法,用于提高图片中文本行的定位效果。本发明以全卷积神经网络为基础提供一种文本定位模型,该融合了残差网络、转置卷积、特征融合、批量归一化等技术,增强了模型的表征能力。本发明提供的文本定位方法、模型及模型训练方法,能够通过预测文本行区域的二维高斯分布图来定位图像中的文本行区域,可实现复杂背景中水平和任意倾斜角度的文本行的准确定位。
技术领域
本发明涉及人工智能图文处理技术领域,尤其涉及一种文本定位方法、装置及模型训练方法。
背景技术
光学字符识别(Optical Character Recognition,OCR)是指通过图像处理技术识别图像中的文字信息的技术,其在证件识别、车牌识别和纸质信息电子化等领域有广泛的应用。完整的OCR流程一般分为两步:文字定位和文字识别。文字定位是指准确定位出文字在图像中的坐标信息,文字识别是指识别出定位好的图像区域中是什么文字的过程。文字定位的准确度直接关系到后续文字识别的精度,根据后续文字识别模型的不同,文字定位一般分为单字定位和文本行定位。
基于更快速区域卷积神经网络(Faster Region-based Convolutional NeuralNetworks,Faster RCNN))等通用目标检测算法的文本行检测算法。作为基于卷积神经网络的目标检测算法,其检测图像中文本的基本步骤是,先将图像输入到卷积神经网络中提取特征图,然后将特征图输入区域候选网络(Region Proposal Network,RPN)中生成多个候选框,通过兴趣区域(Regions Of Interest,ROI)ROI池化(Pooling)将候选框变换为固定尺寸的特征图,最后依次判断候选框是否为文本区域。该类文本检测模型需要事先定义不同尺寸的候选框,以适应不同尺寸的目标区域。实际图片样本中文本行的大小和长短不一,定义的候选框尺寸难以覆盖所有情况,文本行定位准确度不佳。对于倾斜的文本行,检测结果中会包含过多无关区域。
基于连接文本候选网络(Connectionist Text Proposal Network,CTPN)的文本行定位算法以数学中的微分思想为基础,预测文本的垂直位置,其算法流程为:首先提取VGG16网络的第5个卷积层的输出作为特征图,然后采用3x3的滑窗提取特征,将提取到的特征输入双向长短期记忆网络(Long-Short Term Memory,LSTM)中,输出512维的特征向量,然后通过分类和回归得到文本框的位置,最后再经过文本线构造算法得到包含文本行的目标框。该类文本检测模型的复杂度较高,且对倾斜的文本行检测效果较差。
发明内容
本发明提供一种文本定位方法、装置及模型训练方法,用于提高图片中文本行的定位效果。
基于本发明实施例,提供了一种文本定位装置,该装置包括下采样模块、上采样模块、输出层模块;
下采样模块由主干单元和N个下采样单元组成:
主干单元,由多个卷积层构成,用于提取输入图片的低级特征;主干单元输出的特征图除作为第一个下采样单元的输入外,还与第M-1个上采样单元的输出特征图融合后作为第M个上采样单元的输入;
下采样单元,用于对输入的特征图进行下采样;每个下采样单元输出的特征图尺寸相对于输入的特征图的宽和高成比例缩小,除第N个下采样单元外,每个下采样单元的输出都作为后一个下采样单元的输入,最后一个下采样单元的输出作为第一个上采样单元的输入;
上采样模块由M个上采样单元组成:
上采样单元,用于对输入的特征图进行上采样;每个上采样单元输出的特征图尺寸相对于输入的特征图的宽和高成比例放大;上采样单元的放大比例与下采样单元比例相同;上采样路径中除与输出层模块连接的上采样单元外,每个上采样单元输出的特征图都与下采样路径中主干单元和除第N个下采样单元外每个下采样单元输出的同等维度的特征图融合后作为下一个上采样单元的输入,第M个上采样单元的输出作为输出层模块的输入;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三大数据技术有限公司,未经新华三大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010132023.3/2.html,转载请声明来源钻瓜专利网。