[发明专利]一种发票字条自动识别录入的方法及装置有效

申请号：	201510416688.6	申请日：	2015-07-15
公开（公告）号：	CN105005793B	公开（公告）日：	2018-02-27
发明（设计）人：	陈健庆;李锦鹏	申请（专利权）人：	广州敦和信息技术有限公司
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京联瑞联丰知识产权代理事务所(普通合伙)11411	代理人：	曾少丽
地址：	510663 广东省广州市高新***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种发票字条自动识别录入方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及发票识别领域，特别涉及一种发票字条自动识别录入的方法及装置。

背景技术

传统的发票录入方法需要人工打字录入发票各种信息，包括抬头、金额、地址和消费项目等等。这些信息的录入需要大量时间。对于单位内部结帐，给财务管理都会造成大量不便。随着智能手机的普及，OCR(光学字符识别)技术可以大大减轻发票录入时间，做到实时报销等。识别后的结果还可以进行大数据分析，对员工或者客户的消费习惯进行分析和预测。由于OCR是一种具有挑战性的算法设计，目前只能做到对印刷体的识别，对其他的手写潦草等字体无法识别，手写潦草等字体还需要人工打字录入，造成发票录入效率较低，另外，OCR对光学摄像头也有依赖性，光学摄像头的运动模糊和背景光不足都会对识别结果造成不利的影响，造成识别效果较差。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述无法识别发票中手写潦草字体、发票录入效率较低、识别效果较差的缺陷，提供一种能识别发票中手写潦草字体、发票录入效率较高、识别效果较好的发票字条自动识别录入的方法及装置。

本发明解决其技术问题所采用的技术方案是：构造一种发票字条自动识别录入的方法，包括如下步骤：

A)建立训练数据库，采集各种不同格式的发票图片，并对每种格式的发票图片中的字条标记包围盒及所属类别后保存到所述训练数据库中；

B)接收需要识别的发票图片，并自动检测其位置；所述需要识别的发票图片包括多个字条；

C)将所述训练数据库中的每种格式的发票图片中的包围盒套用到所述需要识别的发票图片上面，并采用开源OCR引擎对被所述包围盒套用的所述需要识别的发票图片中的字条进行识别；

D)将所述需要识别的发票图片与所述训练数据库中每种格式的发票图片进行格式匹配，并找出格式最匹配的发票图片，将所述格式最匹配的发票图片的格式作为所述需要识别的发票图片的格式；

E)对所述需要识别的发票图片中被所述格式最匹配的发票图片的包围盒套用的字条进行图片分层，得到多个图层；

F)采用所述开源OCR引擎对每个所述图层进行识别，计算每个所述图层的识别分数，并将识别分数最高的图层作为滤除公章后的字条。

在本发明所述的发票字条自动识别录入的方法中，所述步骤B)进一步包括：

B1)接收所述需要识别的发票图片，并将其转换为图像矩阵；

B2)利用滑动窗口遍历所述图像矩阵，找出所述滑动窗口中最大的点乘值模板作为所述需要识别的发票图片的位置。