[发明专利]文档识别方法、装置及电子设备在审
申请号: | 202111080737.5 | 申请日: | 2021-09-15 |
公开(公告)号: | CN113792659A | 公开(公告)日: | 2021-12-14 |
发明(设计)人: | 崔渊;孙科;李艺飞;瞿翊 | 申请(专利权)人: | 上海金仕达软件科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 鲁梅 |
地址: | 201203 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 识别 方法 装置 电子设备 | ||
本申请公开了一种文档识别方法、装置及电子设备,所述方法包括:获得待识别的目标文档,所述目标文档为PDF格式,且所述目标文档包含至少一个文档页面;获得所述文档页面中页面内容所在的内容区域;根据所述内容区域的区域参数,获得所述文档页面的初始页面类型;使用所述文档页面中的文字数据,筛选所述初始页面类型,以得到所述文档页面的目标页面类型。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种文化识别方法、装置及电 子设备。
背景技术
对于PDF文档的内容识别,包含文档类型的识别和文字的识别。目前主 要采用基于深度学习的计算机视觉识别模型实现。计算机视觉识别模型通过 大量的样本数据进行训练得到。
但是,在计算机视觉识别模型的使用过程中,由于经常出现新的文档类 型,因此,会导致无法对文档类型进行准确的识别,使得识别结果的错误率 较高。
发明内容
有鉴于此,本申请提供一种文档识别方法、装置及电子设备,用以解决 目前对文档类型的识别错误率较高的技术问题,如下:
一种文档识别方法,所述方法包括:
获得待识别的目标文档,所述目标文档为PDF格式,且所述目标文档包 含至少一个文档页面;
获得所述文档页面中页面内容所在的内容区域;
根据所述内容区域的区域参数,获得所述文档页面的初始页面类型;
使用所述文档页面中的文字数据,筛选所述初始页面类型,以得到所述 文档页面的目标页面类型。
上述方法,优选的,所述区域参数包括所述内容区域在所属文档页面中 的面积比例参数、所述内容区域在所属文档页面中的区域位置参数和所述内 容区域的区域形状参数;
其中,根据所述内容区域的区域参数,获得所述文档页面的初始页面类 型,包括:
将所述区域参数与预设的页面类型的类型参数进行比对,以得到与所述 区域参数相匹配的目标类型参数,所述目标类型参数对应的页面类型为所述 文档页面的初始页面类型。
上述方法,优选的,使用所述文档页面中的文字数据,筛选所述初始页 面类型,以得到所述文档页面的目标页面类型,包括:
对所述文档页面进行文字识别,以得到所述文档页面中的文字数据;
将所述文字数据与所述初始页面类型对应的类型关键词进行比对,以得 到所述文档页面的目标页面类型。
上述方法,优选的,所述类型关键词对应有字典树;
其中,将所述文字数据与所述初始页面类型对应的类型关键词进行比对, 以得到所述文档页面的目标页面类型,包括:
将所述文字数据与所述字典树进行匹配,以得到关键词匹配结果,所述 关键词匹配结果表征所述文字数据是否与所述字典树相匹配;
在所述关键词匹配结果表征所述文字数据与所述字典树相匹配的情况 下,将所述字典树对应的类型关键词所属的初始页面类型确定为所述文档页 面的目标页面类型。
上述方法,优选的,对所述文档页面进行文字识别,以得到所述文档页 面中的文字数据,包括:
使用计算机视觉识别模型对所述文档页面进行文字识别,以得到第一文 本向量序列,所述第一文本向量序列中包含至少一个文本向量;
使用自然语言纠错模型对所述第一文本向量序列进行纠错处理,以得到 第二文本向量序列,所述第二文本向量序列中包含至少一个文本向量;
将所述第一文本向量序列中的文本向量和所述第二文本向量序列中的文 本向量进行向量融合,以得到目标文本向量序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海金仕达软件科技有限公司,未经上海金仕达软件科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111080737.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能农业感温滴灌装置
- 下一篇:落地式餐边柜及其组装方法