[发明专利]一种发票数据处理方法及设备有效
申请号: | 202011055166.5 | 申请日: | 2020-09-29 |
公开(公告)号: | CN112329814B | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 周斐;郭松 | 申请(专利权)人: | 浪潮通用软件有限公司 |
主分类号: | G06V10/75 | 分类号: | G06V10/75;G06V30/148;G06K9/62;G07D7/206 |
代理公司: | 北京君慧知识产权代理事务所(普通合伙) 11716 | 代理人: | 董延丽 |
地址: | 250101 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 发票 数据处理 方法 设备 | ||
本申请公开了一种发票数据处理方法及设备,通过获取各发票识别数据;其中,各发票识别数据为基于预设的OCR识别模型,对来自终端设备的发票图像数据进行识别得到的;获取预先存储的,与各发票识别数据对应的发票真实数据;基于预设规则,对各发票识别数据中的发票字段进行数据清洗,以分别得到相应的规则发票识别数据;将各规则发票识别数据与相应的发票真实数据进行匹配,得到相应的字符集合;基于字符集合,更新预设的OCR识别模型。基于上述方案,可以高效的,有针对性的提高OCR识别模型的识别率。
技术领域
本申请涉及计算机技术领域,尤其涉及一种发票数据处理方法及设备。
背景技术
发票是指一切单位和个人在购销商品、提供或接受服务以及从事其他经营活动中,所开具和收取的业务凭证,是会计核算的原始依据,也是审核机关、税务机关执法检查的重要依据。人们往往需要在相应系统中录入发票的信息数据用于报销、审核、认证、存档。
随着社会经济和科技的不断发展,自动化发票识别替代了人工,从而在一定程度上节约了大量的人力资源。但是,由于发票的应用场景较为复杂,特别是使用中文字符的发票因为其形似字等原因使其发票识别的场景更为复杂,这就造成现有的自动化发票识别技术的识别率较低,用户体验较差。
基于此,如何提高发票识别的识别率成为亟需解决的技术问题。
发明内容
本说明书实施例提供一种发票数据处理方法及设备,用于解决现有技术中的如下技术问题:发票的应用场景复杂,使得自动化发票识别技术的识别率低,用户体验差。
本说明书实施例采用下述技术方案:
一种发票数据处理方法,该方法包括:
获取各发票识别数据;其中,各所述发票识别数据为基于预设的OCR识别模型,对来自终端设备的发票图像数据进行识别得到的;
获取预先存储的,与各发票识别数据对应的发票真实数据;
基于预设规则,对各所述发票识别数据中的发票字段进行数据清洗,以分别得到相应的规则发票识别数据;其中,各所述规则发票识别数据中的发票字段的展示形式,与对应的发票真实数据中的发票字段的展示形式一致;
将各所述规则发票识别数据与相应的发票真实数据进行匹配,得到相应的字符集合;其中,所述字符集合中包括匹配结果不一致的字符;所述字符为所述规则发票识别数据和/或发票真实数据中发票字段中的字符;
基于所述字符集合,更新所述预设的OCR识别模型。
通过上述方案,本申请实施例提供的发票数据处理方法可以得到OCR识别模型识别率低的原因,也就是说是哪些字符识别错误导致识别率低,得到导致识别率低的字符集合,从而可以对OCR识别模型进行针对应的训练,高效、快速的提高OCR识别模型的精确度、识别率。
在一种可能实现的方式中,所述基于预设规则,对各所述发票识别数据中的发票字段进行数据清洗,以分别得到相应的规则发票识别数据,具体包括:
确定发票真实数据中的各发票字段、以及各发票字段对应的发票字段信息,是否符合相应的预设条件;
将未符合相应的预设条件的发票字段、以及未符合相应预设条件的发票字段信息,按照预设条件进行相应替换,以得到相应的规则发票识别数据。
通过上述数据清洗,以发票真实数据的为准对发票识别数据中的发票字段进行数据清洗,以得到发票字段的展示形式与对应的发票真实数据中的发票字段的展示形式一致的规则发票识别数据,以避免只因展示形式不同,而造成OCR识别模型的识别率低的问题。
在一种可能实现的方式中,所述将各所述规则发票识别数据与相应的发票真实数据进行匹配,得到相应的字符集合,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮通用软件有限公司,未经浪潮通用软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011055166.5/2.html,转载请声明来源钻瓜专利网。