[发明专利]文本信息处理方法及装置有效
申请号: | 201911000662.8 | 申请日: | 2019-10-21 |
公开(公告)号: | CN110765996B | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 冯博豪;陈兴波;张小帅;杨舰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06V10/22 | 分类号: | G06V10/22;G06F40/232 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 信息处理 方法 装置 | ||
本申请的实施例公开了文本信息处理方法及装置,涉及云计算领域。该方法的一具体实施方式包括:从包括待处理文本的图像中识别出待处理文本;将待处理文本输入预先训练的循环神经网络语言模型,识别待处理文本中的错别字;将待处理文本中的错别字输入预先训练的文本纠错模型,得到错别字对应的相似字;利用文本纠错模型,基于待处理文本的连贯性,确定相似字中与错别字对应的正确文字,采用正确文字替换错别字,得到待处理文本的纠错文本。本申请通过预先训练的循环神经网络语言模型识别错别字,通过预先训练的文本纠错模型得到错别字的正确文字,从而得到纠错文本,提高了识别结果的准确度。
技术领域
本申请实施例涉及计算机技术领域,具体涉及一种文本信息处理方法及装置。
背景技术
随着计算机技术的发展,OCR(Optical Character Recognition,光学字符识别)文字识别技术在各个领域被广泛应用。OCR文字识别技术能够将图片信息转换成文本信息,然后机器通过自然语言处理技术对文本进行语义分析和意图识别等处理。
目前,OCR文字识别技术对于印刷体的文本识别已经非常成熟,准确度能够达到90%以上,但是,对于手写体文本的识别,现有的OCR文字识别技术准确度较低。
现有技术中,对于OCR技术识别手写文本得到的识别结果的修正,通常通过技术人员人工来完成。
发明内容
本申请实施例提出了一种文本信息处理方法及装置。
第一方面,本申请实施例提供了一种文本信息处理方法,其中,上述方法包括:从包括待处理文本的图像中识别出待处理文本;将待处理文本输入预先训练的循环神经网络语言模型,识别待处理文本中的错别字;将待处理文本中的错别字输入预先训练的文本纠错模型,得到错别字对应的相似字;利用文本纠错模型,基于待处理文本的连贯性,确定相似字中与错别字对应的正确文字,采用正确文字替换错别字,得到待处理文本的纠错文本。
在一些实施例中,在上述利用文本纠错模型,基于待处理文本的连贯性,确定相似字中与错别字对应的正确文字,采用正确文字替换错别字,得到待处理文本的纠错文本之后,上述方法还包括:将纠错文本输入预先训练的填充模型,根据上下文获取纠错文本缺失的内容,得到纠错文本的完整文本。
在一些实施例中,在上述将纠错文本输入预先训练的填充模型,根据上下文获取纠错文本缺失的内容,得到纠错文本的完整文本之后,上述方法还包括:根据识别待处理文本时存储的待处理文本在图像中的位置信息,确定完整文本的显示位置。
在一些实施例中,上述预先训练的文本纠错模型包括:词库过滤模块、流畅度判定模块和连贯性判定模块;
上述利用文本纠错模型,基于待处理文本的连贯性,确定相似字中与错别字对应的正确文字,采用正确文字替换错别字,得到待处理文本的纠错文本,包括:
对于任意一个相似字,执行如下的判断步骤:
将该相似字输入词库过滤模块,替换待处理文本中对应的错别字,得到替换文本,并判断替换文本中含有相似字的词语是否与预设词库匹配;响应于确定含有相似字的词语与预设词库匹配,通过流畅度判定模块得到待处理文本中含有词语的短语的流畅度,并根据流畅度筛选出候选词语,得到候选词文本;将候选词文本输入连贯性判定模块,得到包括候选词语的句子的连贯性数值;
上述利用文本纠错模型,基于待处理文本的连贯性确定错别字的正确文字,采用正确文字替换错别字,得到待处理文本的纠错文本,还包括:根据各替换文本的连贯性数值,确定错别字的正确文字,采用正确文字替换错别字,得到纠错文本。
在一些实施例中,上述将待处理文本输入预先训练的循环神经网络语言模型,识别待处理文本中的错别字,包括:通过预先训练的循环神经语言模型计算待处理文本中的单字的似然概率值,以及含有单字的句子的似然概率值;响应于确定单字的似然概率值小于含有单字的句子的似然概率值,判定单字为错别字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911000662.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种答题卡生成方法、识别方法、装置及存储介质
- 下一篇:手持式读取器