[发明专利]一种矫正OCR文字识别错误的方法及终端设备在审

申请号：	202010292411.8	申请日：	2020-04-14
公开（公告）号：	CN111523532A	公开（公告）日：	2020-08-11
发明（设计）人：	祁健升	申请（专利权）人：	广东小天才科技有限公司
主分类号：	G06K9/20	分类号：	G06K9/20;G06F40/216;G06F40/284;G06F40/58
代理公司：	广州德科知识产权代理有限公司 44381	代理人：	万振雄;杨中强
地址：	528850 广东省东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种矫正 ocr 文字识别错误方法终端设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种矫正OCR文字识别错误的方法、终端设备以及可读存储介质，用于基于第一英文单词识别结果，先利用OCR加权编辑距离算法进行相似单词的筛选，然后通过语句通顺度模型输出矫正后的英文单词，从而提升OCR准确率，为用户在使用指尖查单词中提供更精准的单词识别结果。本发明实施例方法包括：对图片进行英文OCR处理，得到第一英文单词识别结果；对所述第一英文单词识别结果进行OCR加权编辑距离模型筛选，确定错误单词，并得到与所述错误单词对应的候选正确单词；将所述候选正确单词代替所述错误单词，输入到语句通顺度模型进行判断，确定目标正确单词；将所述目标正确单词代替所述错误单词，输出第二英文单词识别结果。

技术领域

本发明涉及教育技术领域，尤其涉及一种矫正OCR文字识别错误的方法、终端设备以及可读存储介质。

背景技术

在现有技术中，通过OCR(Optical Character Recognition，光学字符识别)技术，将图片、照片上的文字内容，直接转换为可编辑文本的软件。软件可以把图片转换成可以编辑的文字。但是，在现有的识别技术中，英语OCR识别出图片中的英文单词并不通过任何检测判断是否OCR正确逻辑将结果呈现给用户，所以，存在OCR准确率低等缺点。

发明内容

本发明实施例提供了一种矫正OCR文字识别错误的方法、终端设备以及可读存储介质，用于基于第一英文单词识别结果，先利用OCR加权编辑距离算法进行相似单词的筛选，然后通过语句通顺度模型输出矫正后的英文单词，从而提升OCR准确率，为用户在使用指尖查单词中提供更精准的单词识别结果。

有鉴于此，本发明第一方面提供了一种矫正OCR文字识别错误的方法，可以包括：

对图片进行英文OCR处理，得到第一英文单词识别结果；

对所述第一英文单词识别结果进行OCR加权编辑距离模型筛选，确定错误单词，并得到与所述错误单词对应的候选正确单词；

将所述候选正确单词代替所述错误单词，输入到语句通顺度模型进行判断，确定目标正确单词；

将所述目标正确单词代替所述错误单词，输出第二英文单词识别结果。

可选的，在本发明的一些实施例中，所述OCR加权编辑距离模型包括拼写检查模型和拼写校正模型；

其中，所述拼写检查模型包括预先编辑的N-gram表，所述第一英文单词识别结果包括英文单词输入串；

所述对所述第一英文单词识别结果进行OCR加权编辑距离模型筛选，确定错误单词，包括：

对所述英文单词输入串中的目标n元串，在所述预先编辑的N-gram表中查找，n为2或3；

若在所述预先编辑的N-gram表中出现的频率小于预设阈值，则确定所述目标n元串为错误单词；