[发明专利]一种基于深度学习的小学生口算题文本图片内容识别方法有效
申请号: | 202010841478.2 | 申请日: | 2020-08-20 |
公开(公告)号: | CN111985397B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 纪睿哲;程艳云 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06V30/414 | 分类号: | G06V30/414;G06V30/148;G06V10/774;G06V10/77;G06V10/84;G06K9/62 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 王素琴 |
地址: | 210023 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 小学生 口算 文本 图片 内容 识别 方法 | ||
1.一种基于深度学习的小学生口算题文本图片内容识别方法,其特征在于,具体包括:
步骤一:使用多分支结构改进了的Densenet网络对输入的口算题图像进行特征提取,在除最后一个的每个密集块Dense Block后的卷基层之后拓展此多分支结构,以使该网络提取的特征尽可能的涵盖高中低维度特征,并输出三个不同尺寸的输出特征,其中,两个输出特征为多分支结构所提取的输出特征,标记为F2和F3,一个输出特征为正常的Densenet网络所提取的输出特征,标记为F1;
步骤二:对Densenet生成的三个输出特征做不同预处理,以适应多分支联合CTC-Attention结构的CTC部分和Attention部分;所述CTC部分,对不同尺寸的输出特征F1,F2和F3做上采样以统一尺寸,之后再做叠加处理以得到F3',再对F3'的特征尺寸进行调整,即将特征尺寸由三维数组表示成二维数组,重新命名其为F3',作为CTC部分的输入;所述Attention部分,直接输入F1,F2和F3,同样对特征的尺寸进行调整,将特征尺寸由三维数组表示成二维数组,依次对应命名为A,B和E,作为Attention部分对输入;
步骤三:对于CTC部分,将步骤二中预处理后的二维特征F3'输入基于LSTM-CTC的编码器-解码器模型,主要是通过LSTM编码器将特征进行编码,再交由CTC-LSTM解码器进行解码;对于Attention部分,则将步骤二中预处理后的二维特征A,B和E直接分别输入Attention-LSTM编码器-解码器模型以输出预测序列状态;
步骤四:设置CTC模型和Attention模型预测联合最大化的最大概率,基于步骤三获得的预测状态进行联合解码,最终的预测结果通过LaTeX格式输出。
2.根据权利要求1所述一种基于深度学习的小学生口算题文本图片内容识别方法,其特征在于,所述步骤三中的CTC部分,使用贝叶斯定理计算预测序列的后验概率分布,如下式:
此式中的p(zt|X)表示从已知输入特征X所获得的当前t时刻隐藏变量zt的概率,而p(zt|zt-1,S)则为依据前一时刻t-1时刻,在当前预测状态S下隐藏变量输出(zt-1,S)所预测的隐藏变量zt的条件概率,通过这两者的运算可以得到所需要的预测状态S=[s1,s2,…,st]。
3.根据权利要求1所述一种基于深度学习的小学生口算题文本图片内容识别方法,其特征在于,步骤三中,将多分支Densenet模型所提取出的特征F1,F2和F3转化后的二维数组特征直接分别输入Attention-LSTM编码器-解码器模型进行编解码操作。
4.根据权利要求3所述一种基于深度学习的小学生口算题文本图片内容识别方法,其特征在于,步骤三中,所述Attention部分的编码器-解码器模型采用了多分支架构,预处理后的三个特征输入该编码器后将分别得到三个不同的输出,本方法拟分别获得该结果,并使之连接在一起,并交由LSTM解码器来得到状态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010841478.2/1.html,转载请声明来源钻瓜专利网。