[发明专利]基于编解码结构的发票文本识别方法及装置有效
申请号: | 202110249695.7 | 申请日: | 2021-03-08 |
公开(公告)号: | CN113158776B | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 刘义江;姜琳琳;李云超;辛锐;陈曦;侯栋梁;魏明磊;杨青;池建昆;范辉;陈蕾;阎鹏飞;吴彦巧;姜敬;檀小亚;师孜晗 | 申请(专利权)人: | 国网河北省电力有限公司;国网河北省电力有限公司雄安新区供电公司 |
主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V20/62;G06V30/148;G06V10/82;G06N3/04 |
代理公司: | 石家庄新世纪专利商标事务所有限公司 13100 | 代理人: | 呼春辉 |
地址: | 050022 *** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 解码 结构 发票 文本 识别 方法 装置 | ||
本发明公开了基于编解码结构的发票文本识别方法及装置,涉及票据文本识别技术领域;方法包括S2文本图片特征提取,处理器将预处理图片处理为统一尺寸的制式图片,第一卷积神经网络对制式图片进行特征提取并获得三维特征向量矩阵F;S3卷积神经网络特征编码,第二卷积神经网络将三维特征向量矩阵F转换为可供门控循环神经网络序列解码输入的待解码特征向量G;S4门控循环神经网络序列解码,门控循环神经网络将待解码特征向量G解码并获得发票文本图片中对应的文字;装置包括文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块;其通过步骤S2至步骤S4等,实现了识别发票图片中的长文本。
技术领域
本发明涉及票据文本识别技术领域,尤其涉及一种基于编解码结构的发票文本识别方法及装置。
背景技术
财务票据报上审批报账对于实现财务自动化和节省人力有着重大帮助,其中尤其是发票图片复杂度较高,这主要是由于发票图片中包含了大量长文本需要识别,目前常见的基于深度学习的场景文本识别算法是将图片输入卷积神经网络做特征提取,提前设定文字字典,然后利用分类模型得到识别结果。
如申请号码为CN202011008285.5,名称为《基于深度学习的发票文本信息识别方法》的专利申请,其中发票文本识别采用的即是通用文字识别模型。对于如图3中所示发票文本效果较差,识别较差的主要原因是通常场景文本识别算法通常是针对于10字以内短文本设计,在模型结构分类模型时候直接将从图片中提取到的特征做分类,少于10字即认为是较少,在文本图片字数较少时候可以分类正确,当文字超过10字后我们发现识别效果偏差。
现有技术问题及思考:
如何解决发票图片中长文本识别困难的技术问题。
发明内容
本发明所要解决的技术问题是提供一种基于编解码结构的发票文本识别方法及装置,其通过步骤S2至步骤S4等,实现了识别发票图片中的长文本。
为解决上述技术问题,本发明所采取的技术方案是:一种基于编解码结构的发票文本识别方法包括如下步骤,S2文本图片特征提取,处理器将预处理图片处理为统一尺寸的制式图片,处理器将制式图片输入至用于提取特征的第一卷积神经网络,第一卷积神经网络对制式图片进行特征提取并获得三维特征向量矩阵F;S3卷积神经网络特征编码,处理器将三维特征向量矩阵F输入至用于转换特征向量的第二卷积神经网络,第二卷积神经网络将三维特征向量矩阵F转换为可供门控循环神经网络序列解码输入的待解码特征向量G;S4门控循环神经网络序列解码,处理器将待解码特征向量G输入至门控循环神经网络,门控循环神经网络解码并获得发票文本图片中对应的文字。
进一步的技术方案在于:还包括在S2步骤之前的步骤S1,S1发票文本图片预处理,处理器获取发票文本图片,对票文本图片进行预处理并获得预处理图片,预处理包括二值化处理、降噪处理和图像矫正处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网河北省电力有限公司;国网河北省电力有限公司雄安新区供电公司,未经国网河北省电力有限公司;国网河北省电力有限公司雄安新区供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110249695.7/2.html,转载请声明来源钻瓜专利网。