[发明专利]利用基本语料库辅助进行票据字符识别的方法和装置在审
申请号: | 201511019950.X | 申请日: | 2015-12-30 |
公开(公告)号: | CN106934918A | 公开(公告)日: | 2017-07-07 |
发明(设计)人: | 刘畅;马雁 | 申请(专利权)人: | 航天信息股份有限公司 |
主分类号: | G07D7/20 | 分类号: | G07D7/20 |
代理公司: | 北京工信联合知识产权代理有限公司11266 | 代理人: | 郭一斐 |
地址: | 100195 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 基本 语料库 辅助 进行 票据 字符 识别 方法 装置 | ||
技术领域
本发明涉及票据识别技术领域,尤其涉及一种利用基本语料库辅助进行票据字符识别的方法和装置。
背景技术
现在的光学字符识别系统,是通过行切分及列切分,逐一将待识别字符串图像切分成单个字符、单元图像块后进行识别,对于识别包括若干粘连字符、中英文混排字符等情况,需要在切分时找到图像块的特征数据再进行处理切分,或依赖于字符识别反馈机制,来提高识别率。上述字符识别方法的缺点为:不能保证常用字符特别是形似字和生僻字的正确识别,影响识别率。
改进的字符识别方法就是使用语料库辅助OCR(Optical Character Recognition,光学字符识别)识别,从而提高识别率。语料库是指经科学取样和加工的大规模电子文本库,目前主要是基于N-gram语言模型构建的各种改进的固定语料库。上述改进的字符识别方法的问题为:模型空间复杂度太高,且语料库的构建工作庞大,语料库固定很难改进和吸收新鲜词汇;另外还有运用基于互联网接口的语料库,不需要存储固定的语料库,直接通过互联网搜索的方式进行辅助识别,但缺点是联网搜索的耗时太长。
发明内容
本发明的实施例提供了一种利用基本语料库辅助进行票据字符识别的方法和装置,以实现有效地进行票据字符识别。
为了实现上述目的,本发明采取了如下技术方案。
一种利用基本语料库辅助进行票据字符识别的方法,其特征在于,根据已知的票据字符识别的错误信息构建基本语料库,所述方法具体包括:
采用扫描仪扫描采集票据上的密文数据和明文图像,通过OCR识别将所述明文图像转换成识别数据,对所述密文数据进行解密,得到解密数据;
将所述识别数据和所述解密数据进行比对,如果所述识别数据与所述解密数据之间的比对结果为不一致,则确认所述识别数据错误,利用所述基本语料库对所述识别数据进行修正。
进一步的,所述的根据已知的票据字符识别的错误信息构建基本语料库,包括:
根据先验知识收集票据字符识别的错误信息,根据收集的信息构建基本语料库,所述基本语料库中包括多条记录,每条记录中包括正确字符、识别错误字符和识别错误数,每个正确字符按识别率只记录识别错误数最高的前若干位的识别错误字符。
进一步的,所述的方法还包括:
定期对各处汇总的票据识别错误信息进行统计,将该段时间内新增的票据字符的识别错误信息添加到所述基本语料库中,再按照错误识别率和容错机制精简出实际使用的基本语料库,并进行定期下载更新到本地。
进一步的,所述的利用所述基本语料库对所述识别数据进行修正包括:
在确定所述识别数据错误后,根据实际修正精度要求设置对所述识别数据进行修正的识别错误数阈值;
提取出所述识别数据中识别错误的字符,提取所述解密数据中所述识别错误的字符对应的解密字符,依据所述识别错误的字符和对应的解密字符查询所述基本语料库,当在所述基本语料库中查询到包含所述识别错误的字符 和对应的解密字符的记录,并且所述记录中的识别错误数大于所述识别错误数阈值,则将所述识别错误的字符修正为所述对应的解密字符,将所述记录中记载的识别错误数加一。
进一步的,所述的方法还包括:
当在所述基本语料库中没有查询到包含识别错误的字符和对应的解密字符的记录,或者查询到的记录中的识别错误数小于识别错误数阈值,则对照票面明文信息对识别错误的字符进行手工修改。
进一步的,包括:
基本语料库构建模块,用于根据已知的票据字符识别的错误信息构建基本语料库;
数据转换模块,用于采用扫描仪扫描采集票据上的密文数据和明文图像,通过OCR识别将所述明文图像转换成识别数据,对所述密文数据进行解密,得到解密数据;
数据比对模块,用于将所述识别数据和解密数据进行比对,如果识别数据与解密数据之间的比对结果为不一致,则确认所述识别数据错误;
数据修正模块,用于利用所述基本语料库对所述识别数据进行修正。
进一步的,所述的基本语料库构建模块,用于根据先验知识收集票据字符识别的错误信息,根据收集的信息构建基本语料库,所述基本语料库中包括多条记录,每条记录中包括正确字符、识别错误字符和识别错误数,每个正确字符按识别率只记录识别错误数最高的前若干位的识别错误字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天信息股份有限公司,未经航天信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511019950.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:液压增压器
- 下一篇:一种液压站及具有其的太阳能液压驱动系统