[发明专利]数据处理方法、装置、设备、程序产品及存储介质在审
申请号: | 202211014152.8 | 申请日: | 2022-08-23 |
公开(公告)号: | CN115880702A | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 潘宇;陈琳;吴伟佳 | 申请(专利权)人: | 微民保险代理有限公司 |
主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V30/19;G06V30/10 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 杜维 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 设备 程序 产品 存储 介质 | ||
本申请实施例公开了一种数据处理方法、装置、设备、程序产品及存储介质,涉及人工智能技术,其中,方法包括:对该待识别图像进行版面元素识别处理,确定该待识别图像包含的至少一个版面元素;通过目标检测模型对该待识别图像包含的各个版面元素进行版面元素类型检测处理,得到该各个版面元素的版面元素类型;针对任一版面元素,获取与该任一版面元素的版面元素类型匹配的图像模板,并将获取的图像模板与该任一版面元素进行模板匹配,以从该任一版面元素中提取文本信息;将从该各个版面元素中提取的文本信息进行融合处理,得到该待识别图像的文本图像信息。采用本申请实施例,可以提高文本信息提取的准确性。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种数据处理方法、装置、设备、程序产品及存储介质。
背景技术
目前的数据处理方式一般是采用固定全图模板标注和固定全图模板匹配的方式提取文本信息,但是该方式对标注的固定全图模板具有较高的要求,当待识别的图像中的版面与固定全图模板中的版面存在差异时,会导致图像中的元素识别准确性降低,进而降低文本信息提取的准确性。
发明内容
本申请实施例提供一种数据处理方法、装置、设备、程序产品及存储介质,可以提高文本信息提取的准确性。
第一方面,本申请提供一种数据处理方法,包括:
对该待识别图像进行版面元素识别处理,确定该待识别图像包含的至少一个版面元素;
通过目标检测模型对该待识别图像包含的各个版面元素进行版面元素类型检测处理,得到该各个版面元素的版面元素类型;
针对任一版面元素,获取与该任一版面元素的版面元素类型匹配的图像模板,并将获取的图像模板与该任一版面元素进行模板匹配,以从该任一版面元素中提取文本信息;
将从该各个版面元素中提取的文本信息进行融合处理,得到该待识别图像的文本图像信息。
第二方面,本申请提供一种数据处理装置,包括:
版面识别单元,用于对该待识别图像进行版面元素识别处理,确定该待识别图像包含的至少一个版面元素;
元素检测单元,用于通过目标检测模型对该待识别图像包含的各个版面元素进行版面元素类型检测处理,得到该各个版面元素的版面元素类型;
文本提取单元,用于针对任一版面元素,获取与该任一版面元素的版面元素类型匹配的图像模板,并将获取的图像模板与该任一版面元素进行模板匹配,以从该任一版面元素中提取文本信息;
文本融合单元,用于将从该各个版面元素中提取的文本信息进行融合处理,得到该待识别图像的文本图像信息。
第三方面,本申请提供了一种计算机设备,包括:处理器、存储器、网络接口;
上述处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,上述存储器用于存储计算机程序,上述处理器用于调用上述计算机程序,以使包含该处理器的计算机设备执行上述数据处理方法。
第四方面,本申请提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行上述数据处理方法。
第五方面,本申请提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请第一方面中的各种可选方式中提供的数据处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微民保险代理有限公司,未经微民保险代理有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211014152.8/2.html,转载请声明来源钻瓜专利网。