[发明专利]OCR识别纠错方法、装置及设备在审
申请号: | 201910955162.3 | 申请日: | 2019-10-09 |
公开(公告)号: | CN110751234A | 公开(公告)日: | 2020-02-04 |
发明(设计)人: | 戴建新;汪洋;付瑞吉;王士进;魏思;胡国平 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06K9/72 | 分类号: | G06K9/72;G06F40/289 |
代理公司: | 11252 北京维澳专利代理有限公司 | 代理人: | 王立民;金海 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 字符序列 标签 装置及设备 资源利用率 纠错性能 先验信息 序列替换 构建 纠错 去除 排序 预测 | ||
本发明公开了一种OCR识别纠错方法、装置及设备,其中方法包括:基于OCR识别结果,得到包含OCR分词标签的第一字符序列以及去除OCR分词标签的未分词字符序列;利用预先构建的分词模型对所述未分词字符序列进行分词,得到包含预测分词标签的第二字符序列,所述第一字符序列与所述第二字符序列具有相同的字符排序;根据所述第一字符序列以及所述第二字符序列,确定最优分词序列;利用所述最优分词序列替换所述识别结果。本发明相比现有的分词方案,有效利用了OCR本身提供的关键的先验信息,因而具备更佳的分词纠错性能以及更为合理的资源利用率。
技术领域
本发明涉及电子信息化教育、自然语言处理领域,尤其涉及一种OCR识别纠错方法、装置及设备。
背景技术
近年来,在传统的教育领域,也逐渐开展新一代的教育信息化升级探索,国内现有基础教育阶段,学生学习状况的主要考察形式仍然是各种类型的考试。在此状况下,教师背负着很大的批改工作的压力。另一方面,在处理大规模评分工作时,教师容易受到疲劳、个人偏好等主观因素的干扰。因此利用计算机辅助完成评价,以减少人工评阅工作量,提升评分的准确性和客观性,对教学过程意义重大。
OCR(Optical Character Recognition,光学字符识别)技术可将学生书写的文字转变为数字化格式,作为教育信息化的首要阶段,OCR识别结果对于后续任务的处理有重要的影响和意义。然而,在实际环境中,因为书写者字迹潦草等原因,OCR识别的结果不尽如人意,尤其会导致出现较多的分词错误,极大地影响后续文字处理结果。
特别地,本发明聚焦于外文的分词处理(所述外文是相对具有表义、象形特点的文字而言——例如中文等,因而此处所述外文可以是指以字母、符号形式表达的文字),然而,本领域针对外文OCR的分词纠错方案并未与OCR技术有效结合,即便在对OCR的错误分词进行修正时,也往往会忽视OCR处理后所包含的关键信息,也即是并未考虑OCR识别结果本身所保留的先验信息,从而导致资源利用不合理、分词纠错效果不佳的问题。
发明内容
本发明针对上述现有技术的弊端,提供了一种OCR识别纠错方法、装置及设备,以解决对于OCR识别结果的修复问题。
本发明采用的技术方案如下:
一种OCR识别纠错方法,包括:
基于OCR识别结果,得到包含OCR分词标签的第一字符序列以及去除OCR分词标签的未分词字符序列;
利用预先构建的分词模型对所述未分词字符序列进行分词,得到包含预测分词标签的第二字符序列,所述第一字符序列与所述第二字符序列具有相同的字符排序;
根据所述第一字符序列以及所述第二字符序列,确定最优分词序列;
利用所述最优分词序列替换所述识别结果。
可选地,所述根据所述第一字符序列以及所述第二字符序列,确定最优分词序列包括:
基于所述OCR分词标签确定所述第一字符序列的第一分词路径;
基于所述预测分词标签确定所述第二字符序列的第二分词路径;
根据所述第一分词路径以及所述第二分词路径,获取最优分词路径。
可选地,
所述第一分词路径包括:利用所述OCR分词标签中的起始标签和截止标签,依字符排序确定的所述第一字符序列中每个分词的第一分词单元路径;
所述第二分词路径包括:利用所述预测分词标签中的起始标签和截止标签,依字符排序确定的所述第二字符序列中每个分词的第二分词单元路径。
可选地,所述根据所述第一分词路径以及所述第二分词路径,获取最优分词路径包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910955162.3/2.html,转载请声明来源钻瓜专利网。