[发明专利]一种任意形状的场景文本端到端识别方法有效
申请号: | 201810294058.X | 申请日: | 2018-04-04 |
公开(公告)号: | CN108549893B | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 白翔;吕鹏原;廖明辉;姚聪;储佳佳 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/32;G06K9/62;G06N3/04 |
代理公司: | 深圳市六加知识产权代理有限公司 44372 | 代理人: | 严泉玉 |
地址: | 430000 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种任意形状的场景文本端到端识别方法,通过特征金字塔网络提取文本特征,用于区域提取网络生成候选文本框;然后通过快速区域分类回归分支调整候选文本框位置得到更准确的文本包围盒位置信息;其次将包围盒位置信息输入分割分支,通过像素投票算法得到预测字符序列;最后通过加权编辑距离算法对预测的字符序列进行处理,找到给定词典中预测序列的最匹配单词得到最终的文本识别结果。该方法可以同时检测和识别自然图像中任意形状的场景文本,包括水平文本、多方向文本和曲形文本,并且可以完全地进行端到端训练。本发明提出的检测识别方法相对于现有技术在准确度和通用性这些方面都取得了卓越的效果,有很强的实际应用价值。 | ||
搜索关键词: | 一种 任意 形状 场景 文本 端到端 识别 方法 | ||
【主权项】:
1.一种任意形状的场景文本端到端识别方法,其特征在于,所述方法包括下述步骤:(1)训练任意形状的场景文本端到端识别网络模型,包括如下子步骤:(1.1)对原始数据集中所有图片的多方向文本进行单词级别的标注,标签为单词级别的文本包围盒的多边形顺时针顶点坐标和文本的单词字符序列,得到带标注的标准训练数据集;(1.2)定义任意形状的场景文本端到端识别网络模型,根据(1.1)带标注的标准训练数据集,计算训练标签,并设计损失函数,利用反向传导方法训练该场景文本端到端识别网络,得到场景文本端到端识别网络模型;包括:(1.2.1)构建任意形状的场景文本端到端识别网络模型,所述识别网络模型由特征金字塔结构网络、区域提取网络、快速区域分类回归分支和分割分支组成;(1.2.2)根据特征图在原图上产生水平初始包围盒,为所述识别网络模型中区域提取网络、快速区域分类回归分支网络和分割分支网络模块生成训练标签;(1.2.3)以标准训练数据集Itr作为识别网络模型的输入,利用特征金字塔网络模块提取特征;(1.2.4)将特征金字塔网络提取的特征输入区域提取网络,经过锚点分配,利用感兴趣区域对齐方法调整特征图,生成候选文本框;(1.2.5)将候选文本框输入快速区域分类回归网络模块,经过分类和回归两个分支,计算损失函数并反向传导,最终生成预测文本包围盒;(1.2.6)将候选文本框输入分割分支网络模块,基于实例分割和语义分割,生成目标分割图层;(1.2.7)以训练标签gt为网络期望输出,以预测标签
为网络预测输出,针对构建的网络模型,设计期望输出和预测输出之间的目标损失函数;(2)利用上述训练好的模型对待检测识别场景文本图片进行文字检测识别,包括如下子步骤:(2.1)将待检测识别场景文本图片提取特征输入快速区域分类回归分支网络生成候选文本区域,并对其进行非最大值抑制操作进行过滤,得到更准确的候选文本区域;(2.2)将预测的候选文本区域输入分割分支网络进行文本实例分割和字符分割,分别生成全局文本实例分割掩膜和字符分割掩膜,通过计算全局文本实例分割掩膜上文本区域的轮廓,获得多边形单词文本区域,通过在字符分割掩膜利用像素投票算法预测得到字符序列;(2.3)通过加权编辑距离算法对分割分支预测的字符序列进行处理,找到给定词典中预测序列的最匹配单词,得到最终识别结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810294058.X/,转载请声明来源钻瓜专利网。