[发明专利]基于文本识别的发票检验方法、服务器及存储介质有效
申请号: | 201910421961.2 | 申请日: | 2019-05-21 |
公开(公告)号: | CN110288755B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 高良骥 | 申请(专利权)人: | 平安银行股份有限公司 |
主分类号: | G07D7/202 | 分类号: | G07D7/202;G07D7/20 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 识别 发票 检验 方法 服务器 存储 介质 | ||
1.一种基于文本识别的发票检验方法,应用于第一服务器,其特征在于,该方法包括:
矫正步骤:获取待检验发票图像,并根据预先确定的矫正规则对所述待检验发票图像进行倾斜矫正;
识别步骤:利用预先训练的与预设类型发票字段对应的识别模型,分别识别出矫正后的所述待检验发票图像上对应的预设类型发票字段信息;
验证步骤:将识别出的所述预设类型发票字段信息发送至第二服务器进行发票真伪验证,并接收所述第二服务器反馈的发票真伪验证结果;
第一反馈步骤:若发票真伪验证失败,则发送验证失败提示信息至客户端;
第二反馈步骤:若发票真伪验证成功,则发送验证成功提示信息至所述客户端,并接收所述第二服务器反馈的与所述预设类型发票字段信息对应的发票全属性字段信息,并调用预先确定的发票模板,将所述发票全属性字段信息中各字段信息分别填入所述发票模板的对应栏位,以生成重构的结构化发票;及生成发票对比展示界面,并将所述发票对比展示界面反馈至所述客户端进行展示,所述发票对比展示界面包括所述结构化发票的显示区域及所述待检验发票图像的显示区域。
2.如权利要求1所述的基于文本识别的发票检验方法,其特征在于,所述矫正规则包括:
采用霍夫变换的概率算法得到所述待检验发票图像中小于或等于第一预设长度的第一直线段;
从所述第一直线段中确定出倾斜角度小于或等于第一预设角度的所有第二直线段;
将所述所有第二直线段中心点的y坐标值之差小于或等于预设阈值的第二直线段分为一类;
将属于同一类的所述第二直线段作为一个目标类直线,并利用最小二乘法分别确定出各个目标类直线的拟合直线;及
计算每条所述拟合直线的斜率,以及所有拟合直线的斜率的中位数和斜率的均值,确定出所述中位数与均值中的较小者,并根据确定出的较小者调整所述待检验发票图像倾角。
3.如权利要求1所述的基于文本识别的发票检验方法,其特征在于,所述识别模型为时间递归神经网络模型,所述预设类型发票字段对应的识别模型的训练过程包括:
针对该预设类型发票字段,获取预设数量的发票图像样本,其中,所述发票图像中包含所述预设类型发票字段的字符信息,并将各个所述发票图像样本的名称命名为所述预设类型发票字段的字符信息;
将所述发票图像样本按照预设比例分成第一数据集和第二数据集,所述第一数据集中的图像样本数量大于所述第二数据集中的图像样本数量,所述第一数据集作为训练集,所述第二数据集作为测试集;
将所述第一数据集中的图像样本送入所述时间递归神经网络模型进行训练,每隔预设周期使用所述第二数据集对所述时间递归神经网络模型进行测试;
利用训练得到的模型对所述第二数据集中的图像进行字符信息识别,并和测试的图像的名称作对比,以计算识别的结果和期望结果的误差;
若训练得到的模型对发票图像识别的误差大于预设阈值,则进行多次迭代;及
若训练得到的模型对发票图像识别的误差小于预设阈值,结束模型训练将生成的模型作为该预设类型发票字段对应的识别模型。
4.如权利要求1-3中任一项所述的基于文本识别的发票检验方法,其特征在于,在第二反馈步骤中当发票真伪验证成功之后,该方法还包括以下步骤:
获取已验证成功的发票状态,若所述发票的发票状态为异常,则向客户端发送发票状态异常的提醒信息;及/或
获取已验证成功的发票对应的交易登记信息,分析是否有与所述发票对应的交易登记信息存在冲突,若所述交易登记信息存在冲突,则向客户端发送交易登记信息存在冲突的提醒信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安银行股份有限公司,未经平安银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910421961.2/1.html,转载请声明来源钻瓜专利网。