[发明专利]一种仓库货架标识牌文字识别的自然场景文字识别方法在审
申请号: | 201910112721.4 | 申请日: | 2019-02-13 |
公开(公告)号: | CN109886174A | 公开(公告)日: | 2019-06-14 |
发明(设计)人: | 吴成东;陆正;张亚平 | 申请(专利权)人: | 东北大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 姜玉蓉;李洪福 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文字识别 卷积 标识牌 自然场景 仓库货架 文本检测 链接替换 特征提取 文本框层 物流仓库 网络 连接层 下采样 准确率 保留 | ||
本发明提供一种仓库货架标识牌文字识别的自然场景文字识别方法,至少包括以下步骤:搭建待识别标识牌文本检测网络;所述待识别标识牌文本检测网络的具体结构为:来自VGG‑16的13个卷积层,卷积层为10个特征提取的额外的卷积层的全卷积网络,以及6个连接到6个中间卷积层的文本框层;保留所述VGG‑16的13个卷积层,将所述VGG‑16够成的两个全连接层全链接替换为参数下采样原理的两个卷积层。本发明提供一种用于仓库货架标识牌文字识别的自然场景文字识别方法,可以在物流仓库环境中有较高的自然场景文字识别的准确率、精确率和召回率的同时,也有着很好的效率。
技术领域
本发明涉及文字识别的技术领域,具体而言,尤其涉及一种仓库货架标识牌文字识别的自然场景文字识别方法。
背景技术
自然场景文字识别技术不同于传统OCR(光字符识别)技术目前可以分成两个部分:文本检测与文字识别。文本检测有如下方法:CTPN方案中,用BLSTM模块提取字符所在图像上下文特征,以提高文本块识别精度。RRPN等方案中,文本框标注采用BBOX+方向角度值的形式,模型中产生出可旋转的文字区域候选框,并在边框回归计算过程中找到待测文本行的倾斜角度。DMPNet等方案中,使用四边形(非矩形)标注文本框,来更紧凑的包围文本区域。SegLink将单词切割为更易检测的小文字块,再预测邻近连接将小文字块连成词。TextBoxes等方案中,调整了文字区域参考框的长宽比例,并将特征层卷积核调整为长方形,从而更适合检测出细长型的文本行。FTSN方案中,作者使用Mask-NMS代替传统BBOX的NMS算法来过滤候选框。WordSup方案中,采用半监督学习策略,用单词级标注数据来训练字符级文本检测模型。
现有技术中,常见的文字识别方法:CRNN是目前较为流行的图文识别模型,可识别较长的文本序列。它包含CNN特征提取层和BLSTM序列特征提取层,能够进行端到端的联合训练。它利用BLSTM和CTC部件学习字符图像中的上下文关系,从而有效提升文本识别准确率,使得模型更加鲁棒。预测过程中,前端使用标准的CNN网络提取文本图像的特征,利用BLSTM将特征向量进行融合以提取字符序列的上下文特征,然后得到每列特征的概率分布,最后通过转录层进行预测得到文本序列。
RARE在识别变形的图像文本时效果很好。模型预测过程中,输入图像首先要被送到一个空间变换网络中做处理,矫正过的图像然后被送入序列识别网络中得到文本预测结果。空间变换网络内部包含定位网络、网格生成器、采样器三个部件。经过训练后,它可以根据输入图像的特征图动态地产生空间变换网格,然后采样器根据变换网格核函数从原始图像中采样获得一个矩形的文本图像。RARE中支持一种称为TPS的空间变换,从而能够比较准确地识别透视变换过的文本、以及弯曲的文本。
此外还有所谓端到端模的方法,即一站式直接从图片中定位和识别出所有文本内容来,有如下方法:
FOTS是图像文本检测与识别同步训练、端到端可学习的网络模型。检测和识别任务共享卷积特征层,既节省了计算时间,也比两阶段训练方式学习到更多图像特征。引入了旋转感兴趣区域,可以从卷积特征图中产生出定向的文本区域,从而支持倾斜文本的识别.
STN-OCR是集成了了图文检测和识别功能的端到端可学习模型。在它的检测部分嵌入了一个空间变换网络来对原始输入图像进行仿射变换。利用这个空间变换网络,可以对检测到的多个文本块分别执行旋转、缩放和倾斜等图形矫正动作,从而在后续文本识别阶段得到更好的识别精度。在训练上STN-OCR属于半监督学习方法,只需要提供文本内容标注,而不要求文本定位信息。作者也提到,如果从头开始训练则网络收敛速度较慢,因此建议渐进地增加训练难度。STN-OCR已经开放了工程源代码和预训练模型。
随着物流行业的发展智慧物流将成为该行业发展的主要方向,由于物流规模的逐渐扩大,在物流仓库中货架标识牌的数量越来越多,现有的自然场景文字识别技术缺少应用于物流仓库环境中的,并且准确率、精确率和召回率都不是非常理想。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910112721.4/2.html,转载请声明来源钻瓜专利网。