[发明专利]一种信息处理的方法及装置在审

申请号：	202011623374.0	申请日：	2020-12-31
公开（公告）号：	CN112667767A	公开（公告）日：	2021-04-16
发明（设计）人：	刘菲	申请（专利权）人：	北京百炼智能科技有限公司
主分类号：	G06F16/31	分类号：	G06F16/31;G06F40/289
代理公司：	北京安信方达知识产权代理有限公司 11262	代理人：	富爱民;李丹
地址：	100084 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种信息处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种信息处理的方法及装置，所述方法包括：根据待处理文件的内容所属的类型，识别所述待处理文件中的关键字；根据识别出的关键字以及与关键字对应的相对位置信息，提取位于所述待处理文件的目标区域的目标信息。上述技术方案可以更加准确地提取出待处理文件中的信息。

技术领域

本发明涉及但不限于计算机领域，尤其涉及信息处理的方法及装置。

背景技术

自定义模板文字识别是一款针对固定版式卡证票据提供的OCR(OpticalCharacter Recognition，光学字符识别)定制化产品，可由用户自主创建识别模板，实现对固定版式卡证票据进行结构化输出识别结果。

目前，通常是通过框选参照字段和识别区域的方式配置提取模板，上述方法框选出的参照字段和识别区域是固定的，采用上述提取方式提取目标信息存在以下问题：第一、同一类型的单证版式繁多，对于非固定版式的单证难以框选出相对固定的参照字段，从而导致信息提取错误；第二、现有的提取方式通常是针对单页图片进行配置，无法对含有多页的单证文件进行模板配置。

发明内容

本申请所要解决的技术是提供一种信息处理的方法及装置，可以更加准确地提取文件中的信息。

为了解决上述技术问题，本申请提供了一种信息处理的方法，所述方法包括：

根据待处理文件的内容所属的类型，识别所述待处理文件中的关键字；

根据识别出的关键字以及与关键字对应的相对位置信息，提取位于所述待处理文件的目标区域的目标信息。

在一种示例性实例中，所述根据待处理文件的内容所属的类型，识别所述待处理文件中的关键字包括：

根据所述类型的标识信息，确定与所述类型的标识信息对应的信息提取规则；

从所述待处理文件中识别信息提取规则中的关键字。

在一种示例性实例中，所述方法还包括：

根据预设样本文件的内容所属的类型配置所述信息提取规则；

其中，所述预设样本文件的内容包括单据、文档、证书；

所述信息提取规则含有类型标识信息。