[发明专利]一种信息处理的方法及装置在审
申请号: | 202011623374.0 | 申请日: | 2020-12-31 |
公开(公告)号: | CN112667767A | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 刘菲 | 申请(专利权)人: | 北京百炼智能科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F40/289 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 富爱民;李丹 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息处理 方法 装置 | ||
本申请提供一种信息处理的方法及装置,所述方法包括:根据待处理文件的内容所属的类型,识别所述待处理文件中的关键字;根据识别出的关键字以及与关键字对应的相对位置信息,提取位于所述待处理文件的目标区域的目标信息。上述技术方案可以更加准确地提取出待处理文件中的信息。
技术领域
本发明涉及但不限于计算机领域,尤其涉及信息处理的方法及装置。
背景技术
自定义模板文字识别是一款针对固定版式卡证票据提供的OCR(OpticalCharacter Recognition,光学字符识别)定制化产品,可由用户自主创建识别模板,实现对固定版式卡证票据进行结构化输出识别结果。
目前,通常是通过框选参照字段和识别区域的方式配置提取模板,上述方法框选出的参照字段和识别区域是固定的,采用上述提取方式提取目标信息存在以下问题:第一、同一类型的单证版式繁多,对于非固定版式的单证难以框选出相对固定的参照字段,从而导致信息提取错误;第二、现有的提取方式通常是针对单页图片进行配置,无法对含有多页的单证文件进行模板配置。
发明内容
本申请所要解决的技术是提供一种信息处理的方法及装置,可以更加准确地提取文件中的信息。
为了解决上述技术问题,本申请提供了一种信息处理的方法,所述方法包括:
根据待处理文件的内容所属的类型,识别所述待处理文件中的关键字;
根据识别出的关键字以及与关键字对应的相对位置信息,提取位于所述待处理文件的目标区域的目标信息。
在一种示例性实例中,所述根据待处理文件的内容所属的类型,识别所述待处理文件中的关键字包括:
根据所述类型的标识信息,确定与所述类型的标识信息对应的信息提取规则;
从所述待处理文件中识别信息提取规则中的关键字。
在一种示例性实例中,所述方法还包括:
根据预设样本文件的内容所属的类型配置所述信息提取规则;
其中,所述预设样本文件的内容包括单据、文档、证书;
所述信息提取规则含有类型标识信息。
在一种示例性实例中,根据预设样本文件的内容所属的类型配置信息提取规则包括:
根据所述预设样本文件的内容所属的类型配置所述预设样本文件中的一个或者多个关键字;
根据目标区域与关键字的相对位置关系配置每个关键字对应的一个或者多个相对位置信息。
在一种示例性实例中,所述根据识别出的关键字以及与关键字对应的相对位置信息,提取位于所述待处理文件的目标区域的目标信息包括:
根据识别出的每个关键字以及每个关键字对应的一个或者多个相对位置信息,确定每个目标区域对应的位置;
从每个目标区域的位置上提取目标信息。
在一种示例性实例中,所述待处理文件包括多个页面,每个页面含有分页标识;
所述根据待处理文件的内容所属的类型,识别所述待处理文件中的关键字包括:
当识别出所述文件含有分页标识时,根据待处理文件对应的信息提取规则,识别每个分页标识对应页面中的关键字;
所述根据识别出的关键字以及对应的相对位置信息,提取所述文件中的目标区域中的目标信息包括:
根据每个页面识别出的关键字以及每个页面的关键字对应的相对位置信息,确定每个页面的目标区域的位置;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百炼智能科技有限公司,未经北京百炼智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011623374.0/2.html,转载请声明来源钻瓜专利网。