[发明专利]文本纠错方法、装置、电子设备及计算机可读存储介质在审

申请号：	202010326324.X	申请日：	2020-04-23
公开（公告）号：	CN111626118A	公开（公告）日：	2020-09-04
发明（设计）人：	谢静文;阮晓雯;徐亮	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/34;G06N3/04;G06N3/08;G06F40/279;G06F16/903
代理公司：	深圳市沃德知识产权代理事务所(普通合伙) 44347	代理人：	高杰;于志光
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本纠错方法装置电子设备计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种人工智能技术，揭露了一种文本纠错方法，包括：获取原始文本图像，将所述原始文本图像进行预处理操作，得到标准图像；利用预先训练完成的文本识别模型对所述标准图像进行文本识别，得到字/词向量，并对所述字/词向量编码，生成键值和对应的结果值，根据所述键值和对应的结果值，将所述标准图像转换为输出文本；利用所述键值计算所述输出文本与预设的标准纠错表的编辑距离，根据所述编辑距离得到所述输出文本中的错误文本及所述错误文本对应的正确文本；利用所述正确文本替换所述错误文本，得到标准输出文本。本发明还提出一种文本纠错装置、电子设备以及一种计算机可读存储介质。本发明可以解决文本纠错精度低，成本高的问题。另外，本发明还涉及区块链技术，也试用于智慧城市领域中。

技术领域

本发明涉及人工智能技术领域，尤其涉及一种文本纠错方法、装置、电子设备及计算机可读存储介质。

背景技术

目前文本识别的方法多为利用OCR技术把图像中的文字读取出来，并转换成一种计算机能够接受、人可以理解的字符格式。但是由于OCR技术对输入图像的质量要求很高，在图像精度较低的情况下容易出现大量的识别错误的情况，因此需要对识别出的字符进行纠错处理。但是传统方法只根据图像信息中的字符进行纠错，导致OCR直接输出的纠错结果无法满足实际应用要求，准确率较低。因此如何实现低成本，高精度的文本纠错越来越被人们所重视。

发明内容

本发明提供一种文本纠错方法、装置、电子设备及计算机可读存储介质，其主要目的在于解决文本纠错精度低，成本高的问题。

为实现上述目的，本发明提供的一种文本纠错方法，包括：

获取原始文本图像，将所述原始文本图像进行预处理操作，得到标准图像；

利用预先训练完成的文本识别模型对所述标准图像进行文本识别，得到字/词向量，并对所述字/词向量编码，生成键值和对应的结果值，根据所述键值和对应的结果值，将所述标准图像转换为输出文本；

利用所述键值计算所述输出文本与预设的标准纠错表的编辑距离，根据所述编辑距离得到所述输出文本中的错误文本及所述错误文本对应的正确文本；

利用所述正确文本替换所述错误文本，得到标准输出文本。

可选地，所述将所述原始文本图像进行预处理操作，得到标准图像，包括：

将所述原始文本图像的图像信号进行放大处理，得到放大图像信号；

对所述放大图像信号进行采样，得到采样信号；

将所述采样信号进行滤波处理，得到所述标准图像。

可选地，所述文本识别模型包括：