[发明专利]针对OCR图片的端到端含错文本分类识别仪有效

专利信息
申请号: 202011280156.1 申请日: 2020-11-16
公开(公告)号: CN112434686B 公开(公告)日: 2023-05-23
发明(设计)人: 刘兴高;陈欣杰;王文海;张泽银;张志猛 申请(专利权)人: 浙江大学
主分类号: G06V30/14 分类号: G06V30/14;G06V30/164;G06V30/19;G06N3/0442;G06N3/0464;G06N3/09
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 邱启旺
地址: 310058 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 针对 ocr 图片 端到端含错 文本 分类 识别
【说明书】:

发明公开了针对OCR图片的端到端含错文本分类识别仪,用于对OCR图片中存在文字识别错误的信息实现端到端的纠错并分类,包括OCR信息提取模块、含错文本纠错模块、文本分类模块以及信息蒸馏模块。本发明为了克服已有的OCR图片识别文字和含错文本分类系统相互独立、需要多阶段分步识别纠错并推理类别的缺点,通过结合高效、高精度且可学习的信息蒸馏模块,以及可以充分利用大量历史数据、可拓展性强的文本纠错模块和文本分类模块,建立了针对OCR图片含错文本分类问题的兼具精度和效率的端到端分类系统,能够很好地利用OCR信息实现具有高鲁棒性高适应性高敏捷性的含错文本分类识别仪。

技术领域

本发明涉及OCR图片转文字、文本纠错与文本识别领域,具体是针对OCR图片的端到端含错文本分类识别仪。

背景技术

OCR(Optical Character Recognition,光学字符识别)技术,将图片、照片、电子传真等图像上的文字内容识别提取转换为可编辑文本,通过扫描仪、照相机、电子传真机等设备获取并保存图像文件,然后通过OCR软件读取、分析图像文件并通过字符识别提取字符串。

当前研究中,对OCR图片转化为可识别文本与将可识别文本进行纠错和分类,几乎是相互独立的。尽管国外在文本分类识别方面已有一定进展,并且对含错文本纠正也提出了一些方法,但仍然没有形成专门针对从OCR识别获得的含错文本中识别分类文字的成熟技术体系。同时,在文本分类问题本身,也有文本数据总量巨大、复杂多变、种类繁多、无效信息多等特点;当前主流的OCR识别方法识别输出成功率并不理想,难以广泛应用于实际业务生产环境中,且OCR提取文字的方法与与文本分类任务过于割裂,不具有任何泛化性。当前国内外并无直接针对OCR图片的含错文本分类相关研究,而是需要将OCR获取的文字输入额外的模型来进一步实现文本分类。

发明内容

为了克服目前针对OCR图片的含错文本分类步骤繁琐、识别精度低、系统冗余的不足,本发明的目的在于提供一种端到端的针对含错文本的分类识别仪,其精度高、推理速度快、一旦训练完成后系统极为轻量,且还能够基于新的数据实现在线校正,是具有高鲁棒性高适应性高敏捷性的含错文本分类识别仪。

本发明解决其技术问题所采用的技术方案是:针对OCR图片的端到端含错文本分类识别仪,包括OCR信息提取模块、含错文本纠错模块、文本分类模块以及信息蒸馏模块,其中:

OCR信息提取模块,利用传统OCR技术,通过图像处理和统计机器学习方法从图像中提取文本信息,包括二值化、噪声滤波、相关域分析、AdaBoost。传统的OCR技术根据处理方法可分为三个阶段:图像准备、文本识别和后处理:

(1)在图像准备预处理阶段,利用连通区域分析方法实现文字区域定位;在此基础上,通过非线性以及线性变换实现文字矫正,矫正完成后可获得相比初始时更易于读取的字符段;进一步的,通过Canny、Sobel以及Laplace滤波方法实现噪声的过滤,获取对应文字。

(2)在文字识别阶段,利用相关向量机分类器实现识别分类,在相关向量机中,假设y符合高斯分布,将高斯核函数应用到y(x),其中yc为y的估计值,κ为函数的宽度参数,可以得到似然估计函数:

其中t=(t1,t2...tN)T,w=(w1,w2...wTN),w表示权重系数,t表示分类类别共N类,P表示概率结果、x为输入数据、y为输出数据,下标i表示第i个数据,上标T表示矩阵的转置;

在相关向量机中,权值w可以通过极大似然估计来确定,但是为了防止过拟合,通过高斯先验概率分布来约束参数:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011280156.1/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top