[发明专利]一种信息处理的方法及装置在审
申请号: | 202011623374.0 | 申请日: | 2020-12-31 |
公开(公告)号: | CN112667767A | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 刘菲 | 申请(专利权)人: | 北京百炼智能科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F40/289 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 富爱民;李丹 |
地址: | 100084 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息处理 方法 装置 | ||
1.一种信息处理的方法,所述方法包括:
根据待处理文件的内容所属的类型,识别所述待处理文件中的关键字;
根据识别出的关键字以及与关键字对应的相对位置信息,提取位于所述待处理文件的目标区域的目标信息。
2.如权利要求1所述的方法,其特征在于,所述根据待处理文件的内容所属的类型,识别所述待处理文件中的关键字包括:
根据所述类型的标识信息,确定与所述类型的标识信息对应的信息提取规则;
从所述待处理文件中识别信息提取规则中的关键字。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
根据预设样本文件的内容所属的类型配置所述信息提取规则;
其中,所述预设样本文件的内容包括单据、文档、证书;
所述信息提取规则含有类型标识信息。
4.如权利要求3所述的方法,其特征在于,根据预设样本文件的内容所属的类型配置信息提取规则包括:
根据所述预设样本文件的内容所属的类型配置所述预设样本文件中的一个或者多个关键字;
根据目标区域与关键字的相对位置关系配置每个关键字对应的一个或者多个相对位置信息。
5.如权利要求1所述的方法,其特征在于:
所述根据识别出的关键字以及与关键字对应的相对位置信息,提取位于所述待处理文件的目标区域的目标信息包括:
根据识别出的每个关键字以及每个关键字对应的一个或者多个相对位置信息,确定每个目标区域对应的位置;
从每个目标区域的位置上提取目标信息。
6.如权利要求2至5任一所述的方法,其特征在于:
所述待处理文件包括多个页面,每个页面含有分页标识;
所述根据待处理文件的内容所属的类型,识别所述待处理文件中的关键字包括:
当识别出所述文件含有分页标识时,根据待处理文件对应的信息提取规则,识别每个分页标识对应页面中的关键字;
所述根据识别出的关键字以及对应的相对位置信息,提取所述文件中的目标区域中的目标信息包括:
根据每个页面识别出的关键字以及每个页面的关键字对应的相对位置信息,确定每个页面的目标区域的位置;
从每个页面的目标区域的位置上提取目标信息。
7.如权利要求3或4所述的方法,其特征在于,所述根据预设样本文件的内容所属的类型配置所述信息提取规则还包括:
配置目标区域对应的信息筛选条件,所述信息筛选条件用于对从该目标区域中提取出的多个目标信息进行筛选。
8.如权利要求7所述的方法,其特征在于;
所述提取位于所述待处理文件的目标区域的目标信息之后,所述方法还包括:
如果所述待处理文件对应的信息提取规则中包含与所述目标区域对应的信息筛选条件,则根据所述信息筛选条件对从所述目标区域中提取出的多个目标信息进行筛选。
9.一种信息处理的装置,所述装置包括:存储器和处理器;其特征在于:
所述存储器,用于保存用于信息处理的程序;
所述处理器,用于读取执行所述用于信息处理的程序,执行如权利要求1至8任一所述的信息处理的方法。
10.一种计算机存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至8中任一所述的信息处理的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百炼智能科技有限公司,未经北京百炼智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011623374.0/1.html,转载请声明来源钻瓜专利网。