[发明专利]一种任意形状的场景文本端到端识别方法有效
申请号: | 201810294058.X | 申请日: | 2018-04-04 |
公开(公告)号: | CN108549893B | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 白翔;吕鹏原;廖明辉;姚聪;储佳佳 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/32;G06K9/62;G06N3/04 |
代理公司: | 深圳市六加知识产权代理有限公司 44372 | 代理人: | 严泉玉 |
地址: | 430000 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 任意 形状 场景 文本 端到端 识别 方法 | ||
1.一种任意形状的场景文本端到端识别方法,其特征在于,所述方法包括下述步骤:
(1)训练任意形状的场景文本端到端识别网络模型,包括如下子步骤:
(1.1)对原始数据集中所有图片的多方向文本进行单词级别的标注,标签为单词级别的文本包围盒的多边形顺时针顶点坐标和文本的单词字符序列,得到带标注的标准训练数据集;
(1.2)定义任意形状的场景文本端到端识别网络模型,根据(1.1)带标注的标准训练数据集,计算训练标签,并设计损失函数,利用反向传导方法训练该场景文本端到端识别网络,得到场景文本端到端识别网络模型;包括:
(1.2.1)构建任意形状的场景文本端到端识别网络模型,所述识别网络模型由特征金字塔结构网络、区域提取网络、快速区域分类回归分支和分割分支组成;
(1.2.2)根据特征图在原图上产生水平初始包围盒,为所述识别网络模型中区域提取网络、快速区域分类回归分支网络和分割分支网络模块生成训练标签;
(1.2.3)以标准训练数据集Itr作为识别网络模型的输入,利用特征金字塔网络模块提取特征;
(1.2.4)将特征金字塔网络提取的特征输入区域提取网络,经过锚点分配,利用感兴趣区域对齐方法调整特征图,生成候选文本框;
(1.2.5)将候选文本框输入快速区域分类回归网络模块,经过分类和回归两个分支,计算损失函数并反向传导,最终生成预测文本包围盒;
(1.2.6)将候选文本框输入分割分支网络模块,基于实例分割和语义分割,生成目标分割图层;
(1.2.7)以训练标签gt为网络期望输出,以预测标签为网络预测输出,针对构建的网络模型,设计期望输出和预测输出之间的目标损失函数;
(2)利用上述训练好的模型对待检测识别场景文本图片进行文字检测识别,包括如下子步骤:
(2.1)将待检测识别场景文本图片提取特征输入快速区域分类回归分支网络生成候选文本区域,并对其进行非最大值抑制操作进行过滤,得到更准确的候选文本区域;
(2.2)将预测的候选文本区域输入分割分支网络进行文本实例分割和字符分割,分别生成全局文本实例分割掩膜和字符分割掩膜,通过计算全局文本实例分割掩膜上文本区域的轮廓,获得多边形单词文本区域,通过在字符分割掩膜利用像素投票算法预测得到字符序列;
(2.3)通过加权编辑距离算法对分割分支预测的字符序列进行处理,找到给定词典中预测序列的最匹配单词,得到最终识别结果。
2.根据权利要求1所述的一种任意形状的场景文本端到端识别方法,其特征在于,所述步骤(1.2.1)中的检测识别网络模型具体为:
所述识别网络模型由特征金字塔结构网络、区域提取网络、快速区域分类回归分支网络和分割分支网络组成;其中,所述特征金字塔结构网络以ResNet-50深度卷积神经网络为基础网络,通过增加一个自底向上的连接,一个自顶向下的连接和一个横向连接组成,用于从输入标准训练数据集图片中提取融合不同分辨率的特征;将提取的不同尺度的特征输入到区域提取网络得到候选文本区域,经过感兴趣区域对齐操作后,得到固定尺度的候选文本区域,分别输入到快速区域分类回归分支和分割分支网络;将区域提取网络提取的分辨率为7×7的候选文本区域输入快速区域分类回归网络,通过分类分支预测输入的候选文本区域为正样本的概率,提供更准确的候选文本区域,通过回归分支计算候选文本区域相对于真实文本区域的偏移量,调整候选文本区域位置;分割分支网络由四个卷积层Conv1、Conv2、Conv3、Conv4、一个反卷积层DeConv和一个最终的卷积层Conv5构成,将区域提取网络提取的分辨率为16×64的候选文本区域输入分割分支,通过卷积与反卷积操作,最终生成38个分辨率为32×128的目标分割图层;其中包括1个全局文本实例分割图层用于预测文本区域的具体位置,36个字符分割图层和1个字符背景分割图层通过像素投票算法得到预测字符序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810294058.X/1.html,转载请声明来源钻瓜专利网。