[发明专利]有效数据提取方法、装置、存储介质及终端在审
申请号: | 201811510383.1 | 申请日: | 2018-12-11 |
公开(公告)号: | CN109614622A | 公开(公告)日: | 2019-04-12 |
发明(设计)人: | 火一莽;王如意;石志中;张俊杰 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/332 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100044 北京市海淀区西小口*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标文件 有效数据 预设 有效数据提取 存储介质 第一数据 目标数据 遍历 终端 关键字匹配 模板提取 提取效率 预设位置 载入 申请 | ||
1.一种有效数据提取方法,其特征在于,包括:
载入目标文件,拆分所述目标文件,得到多个第一数据;
根据预设位置从所述第一数据中确定第二数据,从所述第二数据开始遍历,将当前遍历的数据作为目标数据;
如果所述目标数据与预设关键字匹配,则根据所述预设关键字对应的获取模板提取有效数据。
2.根据权利要求1所述的有效数据提取方法,其特征在于,所述拆分所述目标文件,包括:
根据预设符号拆分所述目标文件,所述预设符号包括,逗号,句号或分段符;
或者,根据预设关键词拆分所述目标文件;
或者,根据预设表格选项拆分所述目标文件。
3.根据权利要求1所述的有效数据提取方法,其特征在于,所述拆分所述目标文件,包括:
获取所述目标文件的文件类型;
根据所述文件类型确定拆分模版;
根据所述拆分模版拆分所述目标文件。
4.根据权利要求1所述的有效数据提取方法,其特征在于,所述拆分所述目标文件,包括:
识别所述目标文件中的图像数据,得到相应的文本数据;
根据所述文本数据进行拆分。
5.根据权利要求1-4中任一项所述的有效数据提取方法,其特征在于,如果目标数据与预设关键字匹配,则根据所述预设关键字对应的获取模板提取有效数据,包括:
根据目标文件的类型确定关键字库,所述关键字库包括多个预设关键字以及每个预设关键字对应的获取模板;
判断所述目标数据是否与目标关键字匹配,所述目标关键字为所述关键字库中的任意一个预设关键字;
如果所述目标数据与目标关键字匹配,则根据所述目标关键字对应的获取模板提取有效数据。
6.根据权利要求5所述的有效数据提取方法,其特征在于,在根据所述目标关键字对应的获取模板提取有效数据之后,包括:
对所述有效数据进行分词处理,得到至少一个分词数据;
如果所述分词数据与预设子关键字匹配,则根据所述预设子关键字对应的子获取模板提取子有效数据。
7.根据权利要求5所述的有效数据提取方法,其特征在于,在如果目标数据与预设关键字匹配,则根据所述预设关键字对应的获取模板提取有效数据之前,包括:
根据已知的目标文件和预期的有效数据确定至少一个预设关键字以及每个预设关键字对应的获取模板;
根据所述至少一个预设关键字以及每个预设关键字对应的获取模板生成关键字库;
建立所述目标文件的类型与所述关键字库的关联关系。
8.一种有效数据提取的装置,其特征在于,包括:
载入模块,用于载入目标文件;
拆分模块,用于拆分所述载入模块载入的所述目标文件,得到多个第一数据;
遍历模块,用于根据预设位置从所述拆分模块得到的所述第一数据中确定第二数据,从所述第二数据开始遍历,将当前遍历的数据作为目标数据;
提取模块,用于如果所述目标数据与预设关键字匹配,则根据所述预设关键字对应的获取模板提取有效数据。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述有效数据提取方法。
10.一种终端,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一所述的有效数据提取方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811510383.1/1.html,转载请声明来源钻瓜专利网。