[发明专利]一种基于深度学习的书脊文本识别方法、设备及存储介质有效
申请号: | 202010182949.3 | 申请日: | 2020-03-16 |
公开(公告)号: | CN111680684B | 公开(公告)日: | 2023-09-05 |
发明(设计)人: | 蔡君;付鸿添;廖丽平;陈庆珊 | 申请(专利权)人: | 广东技术师范大学;广东省星溪智能科技有限公司 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V30/148;G06V10/764;G06V10/82;G06N3/0464;G06N3/047;G06N3/08 |
代理公司: | 广州高航知识产权代理有限公司 11530 | 代理人: | 赵永强 |
地址: | 510630 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 书脊 文本 识别 方法 设备 存储 介质 | ||
1.一种基于深度学习的书脊文本识别方法,其特征在于,包括如下步骤:
步骤1,制作合成书脊训练集,单字多字体训练集;
步骤2,在图书馆采集真实书脊图片,使用CTPN模型对单本书脊进行文本检测与裁剪、标注得到真实书脊数据集;
步骤3,搭建ResNet10+BiLSTM+CTC的网络模型,即STRNet模型;
将改进后的ResNet10网络作为模型的主干网络,
残差模块的基本形式为:
(1)
(2)
其中,是恒等映射,F是网络中的变化,是对于叠加之后值的变换,网络通过学习其中的F来减小loss;假设f是恒等映射,其中xk又可以拆分为上一模块的输出和k层残差模块的加和,得到循环后的通式:
(3)
改进后网络的反向传播公式如下:
(4)
简化卷积操作,给h乘上一个系数λ,公式(3)则变成:
(5)
反向传播公式则为:
(6)
使用ResNet10代替传统的卷积网络;
输入图片经ResNet10网络处理后,转变w/4个序列特征向量(X1...Xn),这些序列特征向量作为时间片输入到循环神经网络中;BiLSTM的数学表达式为:
(7)
(8)
(9)
(10)
(11)
其中,σ是sigmod函数,i,f,o分别是输入门、输出门、遗忘门;Ct称作记忆元(cell);所有门的输出向量都和隐藏层h具有相同的维度;门是Bilstm的主要部件,其将输入向量按元素乘以其系数;
CTC将预测结果翻译成最后的识别结果,并对比输入输出序列文本计算Loss值进行反向模型参数更新;CTC定义了一种单帧预测序列到标签序列的转换规则,根据此规则对预测序列做去重以及去空白处理,从而得到最终的标签序列;对于BiLSTM给定输入Xi的情况下,输出结果为l的概率为:
(12)
其中
代表所有经过B变换后是l的路径π,对于任意的一条路径π有:
(13)
其中,的下标t表示π路径的每一个时刻;
步骤4,搭建SK-NNS分类器模型;
定义训练样本集:
Dj=1
定义SK-NNS,由K个局部样本xj…xk线性组合构成:
(14)
对于样本xi,到某个类别的距离最小值表达式为:
(15)
其中,集合ki=1是训练样本中与样本点距离最近的K个局部点集合;然后利用每类样本中的最近邻样本点,建立KNNS,计算出样本点到每类KNNS的距离;
步骤5,通过使用所述合成书脊训练集、单字多字体训练集及真实书脊数据集的数据集对搭建的所述网络模型及所述分类器模型进行训练;
步骤6,基于log_softmax预测概率对训练好的STRNet与SK-NNS分类器进行结合;
步骤7,对识别结果进行语法纠错,将有语病的单词或者词组进行纠正。
2.如权利要求1所述的一种基于深度学习的书脊文本识别方法,其特征在于,所述步骤1进一步包括:对书籍包含书目、出版社、作者的文本信息采集,通过数据清洗,合成多种字体形式以及多种背景的书脊文本图片;同时采集中英文数字常用字符共2536个,制作包含艺术体,街景字体类型的多种字体单字图片数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东技术师范大学;广东省星溪智能科技有限公司,未经广东技术师范大学;广东省星溪智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010182949.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种冠状病毒膜融合抑制剂及其药物用途
- 下一篇:一种用于焊枪的角度调节机构