[发明专利]一种文本纠正方法及装置在审
申请号: | 202211691300.X | 申请日: | 2022-12-27 |
公开(公告)号: | CN115984869A | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 陆强 | 申请(专利权)人: | 际络科技(上海)有限公司 |
主分类号: | G06V30/18 | 分类号: | G06V30/18 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 于平 |
地址: | 202150 上海市崇明区长*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 纠正 方法 装置 | ||
本发明提供一种文本纠正方法及装置,包括:获取文本识别结果,所述文本识别结果为字符串;基于预设的字符串模板,并利用一种或多种预设的文本纠正算法依次对所述字符串中每一字符进行纠正,获得与所述字符对应的一个或多个纠正结果;根据所述纠正结果以及其对应的文本纠正算法获得每一所述字符对应的纠正成本,基于所述纠正成本从所有纠正结果中确定目标纠正结果。本发明能够自动纠正有错误的识别结果,加快纠正速率,提高识别准确率。
技术领域
本发明涉及文本识别技术领域,尤其涉及一种文本纠正方法及装置。
背景技术
文本纠正是自然语言处理领域中的一个重要研究方向,该技术实现了对文本中的错误信息的检测与纠正,能够提高文本的准确度。文本纠正能够应用于多个领域,比如对手写文本中的错误进行纠正,对自动语音识别技术(Automatic Speech Recognition,ASR)识别得到的文本中的错误进行纠正,对光学字符识别技术(Optical CharacterRecognition,OCR)识别得到的文本中的错误进行纠正。
现有文本纠正方法都是模板匹配,判断识别结果是否符合模板格式,具体通过字符串长度、各字符类型等匹配方式判断,若多次模板匹配有误,则需要多次运行对应的文本识别模型重新对文本进行识别,上述文本纠正过程耗时过久,且在识别耗时要求高的场景上述文本纠正方法不适用,还导致文本纠正结果准确率低。
发明内容
本发明提供一种文本纠正方法及装置,用以解决上述问题。
本发明提供一种文本纠正方法,包括:
获取文本识别结果,所述文本识别结果为字符串;
基于预设的字符串模板,并利用一种或多种预设的文本纠正算法依次对所述字符串中每一字符进行纠正,获得与所述字符对应的一个或多个纠正结果;
根据所述纠正结果以及其对应的文本纠正算法获得每一所述字符对应的纠正成本,基于所述纠正成本从所有纠正结果中确定目标纠正结果。
根据本发明提供的一种文本纠正方法,所述预设的文本纠正算法为第一纠正算法、第二纠正算法或第三纠正算法中的一种或多种;所述预设的字符串模板包括模板字符串中每个位置的模板字符对应的数据类型信息;
相应地,所述基于预设的字符串模板,并利用一种或多种预设的文本纠正算法依次对所述字符串中每一字符进行纠正,获得与所述字符对应的一个或多个纠正结果,包括:
根据所述每个模板字符对应的数据类型信息以及当前字符对应的数据类型信息,利用第一纠正算法和/或第二纠正算法和/或第三纠正算法对当前字符进行纠正,获得第一纠正结果和/或第二纠正结果和/或第三纠正结果;
所述根据所述纠正结果以及其对应的文本纠正算法获得每一所述字符对应的纠正成本,基于所述纠正成本从所有纠正结果中确定目标纠正结果,包括:
根据历史字符纠正成本以及所述第一纠正算法和/或第二纠正算法和/或第三纠正算法所对应的算法成本值,计算得到当前字符对应的第一纠正成本和/或第二纠正成本和/或第三纠正成本;
根据所述第一纠正成本和/或第二纠正成本和/或第三纠正成本,从所述第一纠正结果和/或第二纠正结果和/或第三纠正结果中确定成本最低的纠正结果作为目标纠正结果。
根据本发明提供的一种文本纠正方法,所述第一纠正算法为字符替换算法;
相应地,根据预设的字符串模板,利用第一纠正算法对当前字符进行纠正,获得第一纠正结果,包括:
从所述预设的字符串模板和/或相近字符模板库中将与所述当前字符对应的模板字符作为当前模板字符;
利用所述字符替换算法将所述当前字符替换为当前模板字符,形成新的字符串作为第一纠正结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于际络科技(上海)有限公司,未经际络科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211691300.X/2.html,转载请声明来源钻瓜专利网。