[发明专利]票据照片关键信息提取系统及方法有效

申请号：	202110248041.2	申请日：	2021-03-07
公开（公告）号：	CN112861782B	公开（公告）日：	2023-06-20
发明（设计）人：	陶越;徐树公;贾智伟;陈靖超;姜秀峰;穆世义	申请（专利权）人：	上海大学
主分类号：	G06V30/412	分类号：	G06V30/412;G06V30/146;G06V30/19;G06N3/0464;G06N3/047;G06N3/049;G06N3/08
代理公司：	上海交达专利事务所 31201	代理人：	王毓理;王锡麟
地址：	200444***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	票据照片关键信息提取系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种票据照片关键信息提取系统，其特征在于，包括：前端模块以及由通信单元、文本检测单元、识别单元、关键信息提取单元以及回馈单元组成的票据关键信息提取模块，其中：前端模块采集图片并通过通信单元发送至文本检测单元，文本检测单元进行文本检测神经网络推理并得到图片中文本内容块的坐标位置，并相应裁剪图片后通过通信单元发送至识别单元，识别单元从裁剪图片中识别出文本转录内容并通过通信单元发送至关键信息提取单元，关键信息提取单元根据文本内容块的坐标位置和文本转录内容通过关键信息提取网络进行推理并得到关键信息并通过通信单元发送至前端模块进行显示，回馈单元与通信单元相连并采集用户对关键信息的判断结果后更新数据库；

所述的关键信息提取网络，训练采用SROIE数据集，配合前处理生成训练模型需要使用到的标注格式；

所述的标注是指：每张图片上的文本块中的内容，文本块的位置和关键信息，其中文本块中的内容和位置为：文本内容，x₁，y₁，x₂，y₂，x₃，y₃，x₄，y₄，其中：x₁，y₁为文本块的左下角的坐标点，x₂，y₂为文本块的右下角的坐标点，x₃，y₃为文本块的右上角的坐标点，x₄，y₄为文本块的左上角的坐标点，所述的关键信息是指：票据中的商店，地址，总价格和日期；

所述的前处理是指：

①位置坐标的归一化处理：针对所有文本块的四个顶点坐标，将其x轴上的值和y轴上的值按照图片的宽度和高度进行归一化，之后再乘以1000后取整；针对文本块中的每一个单词，计算其左下角的坐标x_l，y_l和右上角的坐标x_r，y_r，其中n为文本块的总字数，m为当前单词是文本块中的第几个单词；

②使用BIO方法标注文本内容：每一个单词对应其标注，根据其内容判断，非关键信息的内容标注为字母O，关键信息内容的标注则与关键信息的种类名称一一对应；

所述的标注，其格式为：单词,x_l，y_l，x_r，y_r,label；

所述的前端模块，包括：拍摄单元、相册单元、上传单元、显示单元以及判断单元，其中：拍摄单元调取前端设备的摄像头进行拍摄，相册单元读取前端设备的存储内容，选择其中的图片，上传单元将拍摄单元拍摄的图片或者相册单元选择的图片上传到服务器，显示单元从服务器接收关键信息提取结果后显示在前端界面上，判断单元接收用户对关键信息的判断，上传单元与判断单元相连，将用户的判断结果上传至服务器；用户选择性地判断关键信息结果是否提取正确，选择的结果保存以进行错误分析；

所述的识别单元使用针对中文识别通用的CRNN的算法改进版，即特征提取部分为ResNet45，添加高斯模糊的同时增加随机mask来模拟打印效果较差的数据；

所述的票据关键信息提取，包括训练阶段和测试阶段，其中：

步骤1、训练阶段，包括训练数据的生成、模型的构建、损失函数的设计、模型训练，具体为：

步骤1.1、训练数据的生成：训练采用公开的SROIE数据集前处理生成训练模型需要使用到的标注格式；

步骤1.2、模型的构建：将文本内容的向量化和文本位置信息的向量化，其中：

所述的文本内容的向量化包括通过三层CNN网络实现的字符向量化和通过GloVe词向量的方式或通过BERT的方式实现的词语向量化；

所述的文本位置信息的向量化通过可学习的方式转换或正余弦的方式转换，将位置向量与文本内容融合后，通过一层CRF层预测最后的标注；

步骤1.3、设计交叉熵损失损失函数，具体为：其中：N为标签的个数，p_k为正确标签向量，q_k为神经网络输出的结果向量；

步骤1.4、模型训练：加载预训练好的文本内容向量化网络参数，其他的网络权重采用随机参数初始化，偏置采用全0初始化，针对步骤1.2向量转化进行微调，即采用Adam算法进行模型参数的更新，当模型迭代次数达到预设的迭代次数时，停止训练并保存训练好的模型；

步骤2、测试阶段：将已有的文本块内容和文本块位置经过步骤1.1前处理转化为要求的格式，通过训练后的关键信息提取网络，得到的关键信息与标注结果进行比对得到召回率正确率和f1分数其中：TP是指：把正样本成功预测为正；TN是指：把负样本成功预测为负；FP是指：负样本错误地预测为正；FN是指：把正样本错误地预测为负；

所述的可学习的方式转换是指：通过一个id，然后根据这个id去搜索对应的向量，这个向量会随着网络的训练改变，即可学习；

所述的正余弦是指：其中：pos为文本在序列中的位置，i为数值在向量中的位置；

所述的位置向量与文本内容结合包括：i)在文本内容向量化完毕之后结合；ii)位置向量通过BiLSTM之后与文本内容向量通过BiLSTM之后结合；iii)位置向量与文本内容向量通过BiLSTM之后结合；

所述的位置向量与文本内容的结合方式包括：i)相加形式结合：两个向量直接相加；ii)相连形式结合：两个向量头尾相连；iii)基于注意力机制相加形式结合：位置向量和位置向量与文本内容融合后的向量分别乘以各自的权重后分别通过Tanh激活函数，之后这二者相连之后通过Softmax之后获得注意力权重，将该注意力权重分别乘以位置向量和融合向量后相加得到融合的特征向量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海大学，未经上海大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110248041.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种建筑木材加工用表面双层抛光设备
下一篇：一种模拟实际土壤环境中重金属纵向迁移的装置

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]票据照片关键信息提取系统及方法有效

专利文献下载