[发明专利]文本纠错方法、装置、计算机设备及存储介质在审

申请号：	202011302996.3	申请日：	2020-11-19
公开（公告）号：	CN112396049A	公开（公告）日：	2021-02-23
发明（设计）人：	谢达荣	申请（专利权）人：	平安普惠企业管理有限公司
主分类号：	G06K9/20	分类号：	G06K9/20;G06F40/289;G06K9/62;G06N3/04;G06N3/08
代理公司：	深圳市世联合知识产权代理有限公司 44385	代理人：	汪琳琳
地址：	518000 广东省深圳市前海深港合作区前***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本纠错方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例属于人工智能领域，涉及一种文本纠错方法、装置、计算机设备及存储介质，其中方法包括:获取待数字化的单据图像，将所述单据图像输入到基于OCR的文字识别模型中，获取所述单据图像的文本数据；将所述文本数据输入到预设的分词模型中，获取所述分词模型响应所述文本数据输出的分词结果；将所述分词结果输入到预先训练的错误词定位模型中，获取所述文本数据中包含的错误词；将所述错误词输入到预设的词替换模型中，获得所述错误词的替换词，用所述替换词替换所述错误词，获得纠错后的文本数据。本申请先定位文本数据中的错误词，并根据前后分词确定替换词，文本纠错利用了上下文信息，保证了文本数据的正确性，提高了单据数字化的效率。

技术领域

本申请涉及人工智能技术领域，尤其涉及文本纠错方法、装置、计算机设备及存储介质。

背景技术

在金融、保险等业务的开展过程中，会产生较多的原始单据，对原始单据的登记录入、归档、信息管理等需要对原始单据数字化，即将原始单据的信息转换为可以通过计算机保存、查询、读取的信息。基于OCR的文字识别技术在原始单据的数字化过程中起着重要作用。

但是，由于业务场景复杂，一些单据图像出现模糊、字体重叠，个别字体错位等问题，严重影响OCR文字识别的准确率，文字识别结果出现错误。影响单据的数字化过程的效率。

发明内容

本申请实施例的目的在于提出一种文本纠错方法、装置、计算机设备及存储介质，以解决单据的数字化过程中文本纠错的问题。

为了解决上述技术问题，本申请实施例提供一种文本纠错方法，采用了如下所述的技术方案：

获取待数字化的单据图像，将所述单据图像输入到基于OCR的文字识别模型中，获取所述单据图像的文本数据；

将所述文本数据输入到预设的分词模型中，获取所述分词模型响应所述文本数据输出的分词结果；

将所述分词结果输入到预先训练的错误词定位模型中，获取所述文本数据中包含的错误词；

将所述错误词输入到预设的词替换模型中，获得所述错误词的替换词，用所述替换词替换所述错误词，获得纠错后的文本数据。