[发明专利]电子发票识别方法、系统、电子设备和介质在审
申请号: | 202111391678.3 | 申请日: | 2021-11-23 |
公开(公告)号: | CN114255335A | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 张帆;黄鹏 | 申请(专利权)人: | 携程计算机技术(上海)有限公司 |
主分类号: | G06V10/22 | 分类号: | G06V10/22 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 马涛;罗朗 |
地址: | 200335 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子 发票 识别 方法 系统 电子设备 介质 | ||
本发明公开了一种电子发票识别方法、系统、电子设备和介质,电子发票识别方法包括以下步骤:获取电子发票的发票名称;根据发票名称选择对应的发票识别模板;根据所述发票识别模板确定所述电子发票的待识别区域并进行识别。本发明针对不同格式的电子发票制作发票识别模板,每个发票识别模板对应不同的待识别区域,并且传入发票名称作为参数,对接相应的发票识别模板,通过发票识别模板来截取电子发票上的待识别区域,并对待识别区域中的发票信息进行识别,通过划分区域,减少了电子发票数据的干扰项,能够比较快速精确的提取到所需的电子发票数据,并且适应不同的发票格式,从而有效地提高了电子发票识别的效率和准确率。
技术领域
本发明涉及信息识别技术领域,特别涉及一种电子发票识别方法、系统、电子设备和介质。
背景技术
随着信息时代的发展,越来越多的商家选择开具电子发票,与传统纸质发票相比,电子发票具有无纸化、低能耗、易保存等特点,但是在核对发票信息时,需要人工介入去识别电子发票的内容,存在工作量大、效率低的问题。现有技术中存在一种电子发票识别方法,通过OCR(一种文字识别)技术将电子发票全部转化为电子数据,再从中提取有用的发票信息,但是在电子发票上有许多干扰项,导致无法快速的获取到所需的发票内容,使得识别的效率很低,并且由于不同省份的电子发票格式各有差异,如回车空行等,导致无法准确的获取到所需的发票内容,造成识别的准确率下降,甚至可能无法识别。
发明内容
本发明要解决的技术问题是为了克服现有技术中识别电子发票存在识别效率低和识别准确率低的缺陷,提供一种电子发票识别方法、系统、电子设备和介质。
本发明是通过下述技术方案来解决上述技术问题:
根据本发明的第一方面,提供一种电子发票识别方法,包括以下步骤:
获取所述电子发票的发票名称;
根据所述发票名称选择对应的发票识别模板;
根据所述发票识别模板确定所述电子发票的待识别区域并进行识别。
较佳地,所述获取所述电子发票的发票名称的步骤包括:
识别所述电子发票的文件类型,根据所述文件类型确定提取方法;
根据所述提取方法提取所述电子发票的文本数据;
根据所述文本数据确定所述发票名称。
较佳地,所述文件类型包括PDF(便携式文档格式)文件和OFD(一种自主文档格式)文件。
较佳地,所述根据所述发票识别模板确定所述电子发票的待识别区域并进行识别的步骤包括:
根据所述发票识别模板截取所述电子发票,得到所述待识别区域;
识别所述待识别区域得到关键词;
根据所述关键词获取发票信息。
较佳地,所述关键词包括发票代码、发票号码、开票日期、名称、纳税人识别号、项目名称、金额、税率和备注中的至少一种;
所述发票信息包括发票代码信息、发票号码信息、开票日期信息、购方名称信息、购方纳税人识别号信息、项目名称信息、金额信息、税率信息、销方名称信息、销方纳税人识别号信息和备注信息中的至少一种。
较佳地,所述根据所述关键词获取发票信息的步骤之后还包括核对发票信息。
较佳地,所述核对发票信息的步骤包括:
将所述发票信息与预设的发票数据库中的发票数据进行比对,若所述发票信息与所述发票数据比对一致,则确定所述电子发票有效;
若比对不一致,则确定所述电子发票无效。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程计算机技术(上海)有限公司,未经携程计算机技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111391678.3/2.html,转载请声明来源钻瓜专利网。