[发明专利]针对OCR图片的端到端含错文本分类识别仪有效
申请号: | 202011280156.1 | 申请日: | 2020-11-16 |
公开(公告)号: | CN112434686B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 刘兴高;陈欣杰;王文海;张泽银;张志猛 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06V30/14 | 分类号: | G06V30/14;G06V30/164;G06V30/19;G06N3/0442;G06N3/0464;G06N3/09 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 ocr 图片 端到端含错 文本 分类 识别 | ||
1.一种针对OCR图片的端到端含错文本分类识别仪,其特征在于:包括OCR信息提取模块、含错文本纠错模块、文本分类模块以及信息蒸馏模块;所述OCR信息提取模块、含错文本纠错模块、文本分类模块依次连接,所述信息蒸馏模块与文本分类模块相连接;所述的信息提取模块将OCR图片信息数据作为输入,输出文本信息,并通过含错文本纠错模块输出经过纠正的文本信息,后通过所述文本分类模块输出文本高维特征和分类概率分布,计算出当前分类结果的同时将文本高维特征和分类概率分布输入信息蒸馏模块;所述信息蒸馏模块通过输入的OCR图片与分类软标签向量进行训练,最终实现端到端的推理;
所述含错文本纠错模块:输入由信息提取模块抽取的文字序列,基于错误检测、候选召回、候选排序三步实现文本纠错,具体如下:
利用基于深度学习的序列标注模型,在错误检测时,充分利用大量的无监督预料所构建的预训练语言模型,再通过由错误句子到正确句子,即对齐语料,实现有监督学习该序列标注模型;
在候选召回部分,利用对齐语料和对齐模型构建字级别、词级别、音级别的混淆字典,先利用字、音混淆字典初步召回候选,然后再利用词级别混淆字典和语言模型二次筛选候选,从而形成最终候选;
而候选排序则是利用上下文DNN特征和人工提取的形音、词法、语义特征一起训练排序模型,最终输出纠错后的文字序列;
所述信息蒸馏模块,输入为文本分类模块softmax层输出的的软分类结果以及含有文字的待分类图片;主体部分采用CNN模型:其输入为含有文字的待分类图片,标签为文本分类模块softmax层输出的的软分类结果,损失函数设计如下:
软标签交叉熵算法:
Loss=output[i1,i2,...,ik,j]×output[i1,i2,...,ik,j](8)
每个样本对应类别j的软标签值:
output[i1,i2,...,ik]=-∑jlabel[i1,i2,...,ik,j]*log(input[i1,i2,...,ik,j]) (9)
其中参数k为类别数,j为当前类别,ik为对应类别所产生的损失,output为所有类别输出的列表,label为文本分类模块标签输出的标签列表,input为CNN模型softmax层输出的软标签列表;通过该损失函数实现对信息蒸馏模块的优化,其通过识别含文字图片,输出为含文字图片中文字对应的类别;
所述信息蒸馏模块在推理阶段:输入为待分类的含文字图片,通过信息蒸馏模块中训练好的CNN模型后,即可输出对应含文字图片的分类类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011280156.1/1.html,转载请声明来源钻瓜专利网。