[发明专利]基于自注意力机制的表单识别方法、装置及存储介质在审

专利信息
申请号: 202111017228.8 申请日: 2021-08-31
公开(公告)号: CN113569840A 公开(公告)日: 2021-10-29
发明(设计)人: 杨紫崴 申请(专利权)人: 平安医疗健康管理股份有限公司
主分类号: G06K9/20 分类号: G06K9/20;G06K9/34;G06K9/62;G06N3/04;G06N3/08
代理公司: 北京中强智尚知识产权代理有限公司 11448 代理人: 黄耀威
地址: 200001 上海市黄浦*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 注意力 机制 表单 识别 方法 装置 存储 介质
【说明书】:

发明涉及人工智能及数字医疗领域,提供了一种基于自注意力机制的表单识别方法、装置及存储介质,该方法包括:获取待识别的表单图片,并对表单图片进行文本检测和文本识别,得到表单图片的文本位置信息和文本内容信息;读取表单图片中各个像素的像素值,得到表单图片的图像素信息;根据表单图片的图像素信息、文本位置信息和文本内容信息,通过预训练的表单数据处理模型,得到表单图片的结构化处理结果,其中,表单数据处理模型是通过基于自注意力机制的编码解码模型训练得到的;对表单图片的结构化处理结果进行表单数据后处理,得到结构化的表单数据。上述方法能够提高不同表单图片在自动化识别时的适应性,并提高表单图片识别的准确度。

技术领域

本发明涉及人工智能和数字医疗领域,尤其是涉及一种基于自注意力机制的表单识别方法方法、装置、存储介质及计算机设备。

背景技术

随着科技的发展与进步,人工智能技术日趋完善,表格清单的自动化识别技术逐渐发展并开始应用于人们的日常生活中。比如,在医保异地报销业务场景中,常常需要对医疗清单明细进行手工录入,一般每个案件待录入的明细长达几十项,对于医保工作人员无疑是一项繁琐、耗时耗力的事务,为了减轻人力的消耗,提升报销时效,就出现了一些表单自动化识别的解决方案,以此来节省人力投入成本,并提高表单识别的效率。

在现有技术中,对各类表单进行自动化识别的方法,通常是对表单图片进行进行文本识别和文字内容提取,然后对识别出的文字进行规则性的后处理,从而形成结构化的数据,但是,这种规则性的后处理方式难以处理无表格线和多行合并等复杂情况,而且,对于较复杂的版面,规则性的处理方式也没有很好的鲁棒性与适应性,导致表单识别的准确度较低。另一种比较常见的表单自动识别方式是基于模板匹配的表格重建方法,此类方法需要先设计一个模板图像,然后将输入图像和模板图像进行匹配和校准,最后基于模板图像的结构对输入图像进行识别,但是,这种方法必须对每种表格单独设置模板,通用性较差,并且表单识别的准确度也较低。

发明内容

有鉴于此,本申请提供了一种基于自注意力机制的表单识别方法、装置、存储介质及计算机设备,主要目的在于解决现有技术中表单自动化识别方法通用性较差,识别结果精确度较低的技术问题。

根据本发明的第一个方面,提供了一种基于自注意力机制的表单识别方法方法,该方法包括:

获取待识别的表单图片,并对所述表单图片进行文本检测和文本识别,得到所述表单图片的文本位置信息和文本内容信息;

读取表单图片中各个像素的像素值,得到表单图片的图像素信息;

根据表单图片的图像素信息、文本位置信息和文本内容信息,通过预训练的表单数据处理模型,得到表单图片的结构化处理结果,其中,表单数据处理模型是通过基于自注意力机制的编码解码模型训练得到的;

对表单图片的结构化处理结果进行表单数据后处理,得到结构化的表单数据。

根据本发明的第二个方面,提供了一种基于自注意力机制的表单识别装置,该装置包括:

文本信息获取模块,用于获取待识别的表单图片,并对表单图片进行文本检测和文本识别,得到表单图片的文本位置信息和文本内容信息;

图信息获取模块,用于读取表单图片中各个像素的像素值,得到表单图片的图像素信息;

结构化处理模块,用于根据表单图片的图像素信息、文本位置信息和文本内容信息,通过预训练的表单数据处理模型,得到表单图片的结构化处理结果,其中,表单数据处理模型是通过基于自注意力机制的编码解码模型训练得到的;

数据后处理模块,用于对表单图片的结构化处理结果进行表单数据后处理,得到结构化的表单数据。

根据本发明的第三个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述基于自注意力机制的表单识别方法方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安医疗健康管理股份有限公司,未经平安医疗健康管理股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111017228.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top