[发明专利]一种仓库货架标识牌文字识别的自然场景文字识别方法在审
申请号: | 201910112721.4 | 申请日: | 2019-02-13 |
公开(公告)号: | CN109886174A | 公开(公告)日: | 2019-06-14 |
发明(设计)人: | 吴成东;陆正;张亚平 | 申请(专利权)人: | 东北大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 姜玉蓉;李洪福 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种仓库货架标识牌文字识别的自然场景文字识别方法,至少包括以下步骤:搭建待识别标识牌文本检测网络;所述待识别标识牌文本检测网络的具体结构为:来自VGG‑16的13个卷积层,卷积层为10个特征提取的额外的卷积层的全卷积网络,以及6个连接到6个中间卷积层的文本框层;保留所述VGG‑16的13个卷积层,将所述VGG‑16够成的两个全连接层全链接替换为参数下采样原理的两个卷积层。本发明提供一种用于仓库货架标识牌文字识别的自然场景文字识别方法,可以在物流仓库环境中有较高的自然场景文字识别的准确率、精确率和召回率的同时,也有着很好的效率。 | ||
搜索关键词: | 文字识别 卷积 标识牌 自然场景 仓库货架 文本检测 链接替换 特征提取 文本框层 物流仓库 网络 连接层 下采样 准确率 保留 | ||
【主权项】:
1.一种仓库货架标识牌文字识别的自然场景文字识别方法,其特征在于,至少包括以下步骤:S1:搭建待识别标识牌文本检测网络;所述待识别标识牌文本检测网络的具体结构为:来自VGG‑16的13个卷积层,卷积层为10个特征提取的额外的卷积层的全卷积网络,以及6个连接到6个中间卷积层的文本框层;保留所述VGG‑16的13个卷积层,将所述VGG‑16够成的两个全连接层全链接替换为参数下采样原理的两个卷积层;所述文本框层的每个位置预测每个默认框的n维向量,包括通过iot方法计算文本存在分数,水平边界矩形偏移和旋转矩形边界框偏移或四边形边界框偏移;所述文本框图层均为3*5像素的卷积核;通过非最大抑制方法,合并所述6个文本框层的结果;S2:默认边框垂直偏移;所述文本检测网络的输出边界框包括:定向边界框{q}或{r},其中,q表示长方形边框r表示旋转边框;通过预测每个位置的多个预先设计的水平默认框的偏移回归计算所述定向边界框的最小水平边界矩形{b};设置所述默认框的宽高比分别为:1、2、3、5、7、10;S3:训练数据集;训练过程分三个阶段首先是预训练阶段,训练一阶段,训练二阶段;所述预训练阶段分别采用10‑4,10‑4,10‑5的学习率,分别迭代60000次,20000次,30000次,采用COCO‑Text数据集;S4:通过损失函数实现梯度下降寻找最优值;对于第i个默认框和第j个实际框,xij=1表示在它们之间的框重叠之后匹配,否则xij=0;设c为置信度,l为预测位置,g为实际位置,则所述损失函数定义为:
其中,N表示与所述实际框匹配的所述默认框的数量,Lloc采用平滑L1正则,对Lconf采用二分类softmax;S5:在线强负样本开采;通过SSD强负样本开采策略第一阶段的负样本和正样本之间的比率设定为3:1,然后第二阶段的比率变为6:1,三个训练阶段分别采用3,3,6的强负样本开采负比率。S6:对所述训练数据集进行扩充;通过随机裁剪策略,将最小重叠或覆盖阈值随机设置为0、0.1、0.3、0.5、0.7和0.9;将每个裁剪区域调整为固定大小的图像,并输入网络。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910112721.4/,转载请声明来源钻瓜专利网。