[发明专利]文字校正的方法及装置、存储介质、处理器在审
申请号: | 201811474270.0 | 申请日: | 2018-12-04 |
公开(公告)号: | CN109583439A | 公开(公告)日: | 2019-04-05 |
发明(设计)人: | 聂镭;沙露露;郑权;张峰;聂颖 | 申请(专利权)人: | 龙马智芯(珠海横琴)科技有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/32;G06K9/34;G06N3/04;G06N3/08 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 江舟;董文倩 |
地址: | 519000 广东省珠*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 校正 目标文字 词向量 目标处理 存储介质 文字识别 自动校正 处理器 向量 空格 归一化处理 技术效果 目标图片 网络获取 去重 预设 | ||
本发明公开了一种文字校正的方法及装置、存储介质、处理器。其中,该文字校正方法包括:通过预设网络获取目标图片中待校正的目标文字的词向量,其中,每个词向量对应一个待校正的目标文字;对词向量进行目标处理,获得处理后的词向量,其中,目标处理包括以下至少之一:去空格处理、去重处理、归一化处理;将处理后的词向量对应的待校正的目标文字输入到训练好的模型中,得到校正后的目标文字,达到对词向量进行目标处理,从而实现了在文字识别过程中可以自动校正文字的技术效果,进而解决了现有技术在文字识别过程中无法实现文字自动校正的技术问题。
技术领域
本发明涉及文字处理领域,具体而言,涉及一种文字校正的方法及装置、存储介质、处理器。
背景技术
随着信息时代的快速发展,越来越多的企业,银行以及政府机构在办理各种业务的时候希望能够自动录入各种证件信息,不仅仅能够节省大量人力成本,还能够使办公智能化,提高办公效率。以身份证为例,现有的方法大多针对身份证进行图像处理后针对切割后的单个字符进行识别,该方法中需要对图像中的字符进行分割,分割过程中产生的误差会对识别结果产生影响;另一种方法是端对端方法,针对身份证图像中的文字进行直接识别,该方法中如果由于人为因素导致身份证图像模糊也会导致识别过程中出现偏差。
现有技术中,通过的做法是:首先提取出文字区域,对字符进行分割,逐个进行识别,则识别效果和照片清晰度,倾斜度,背景光照等相关性较大。可见,现有方法存在由于图像分割不准确带来对图像信息中的文字识别不准确的问题,且在识别文字过程中不能够自动校正错误的问题。
针对现有技术在文字识别过程中无法实现文字自动校正的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文字校正的方法及装置、存储介质、处理器,以至少解决现有技术在文字识别过程中无法实现文字自动校正的技术问题。
根据本发明实施例的一个方面,提供了一种文字校正的方法,包括:通过预设网络获取目标图片中待校正的目标文字的词向量,其中,每个所述词向量对应一个待校正的目标文字;对所述词向量进行目标处理,获得处理后的词向量,其中,所述目标处理包括以下至少之一:去空格处理、去重处理、归一化处理;将处理后的词向量对应的待校正的目标文字输入到训练好的模型中,得到校正后的目标文字。
进一步地,对所述词向量进行归一化处理包括:基于预设条件对所述词向量进行概率值归零处理。
进一步地,通过预设网络获取目标图片中待校正的目标文字的词向量包括:通过卷积神经网络获取所述目标图片的特征矩阵,其中,所述目标图片包括所述待校正的目标文字;将所述特征矩阵输入长短期记忆网络获取所述目标图片中待校正的目标文字的词向量。
进一步地,通过第一预设网络获取所述目标图片的特征矩阵之前,所述方法包括:通过模板对所述目标标图进行预处理;对预处理后的所述目标标图进行缩放,获得所述目标图片,其中,对预处理后的所述目标图像进行缩放时保持所述目标图片的宽度不变。
根据本发明实施例的另一方面,还提供了一种文字校正的装置,包括:第一获取单元,用于通过预设网络获取目标图片中待校正的目标文字的词向量,其中,每个所述词向量对应一个待校正的目标文字;第二获取单元,用于对所述词向量进行目标处理,获得处理后的词向量,其中,所述目标处理包括以下至少之一:去空格处理、去重处理、归一化处理;校正单元,用于将处理后的词向量对应的待校正的目标文字输入到训练好的模型中,得到校正后的目标文字。
进一步地,对所述词向量进行归一化处理包括:基于预设条件对所述词向量进行概率值归零处理。
进一步地,所述第一获取单元包括:第一获取模块,用于通过卷积神经网络获取所述目标图片的特征矩阵,其中,所述目标图片包括所述待校正的目标文字;第二获取模块,用于将所述特征矩阵输入长短期记忆网络获取所述目标图片中待校正的目标文字的词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于龙马智芯(珠海横琴)科技有限公司,未经龙马智芯(珠海横琴)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811474270.0/2.html,转载请声明来源钻瓜专利网。