[发明专利]数据提取方法、装置、服务器及存储介质在审

专利信息
申请号: 201910099500.8 申请日: 2019-01-31
公开(公告)号: CN110032674A 公开(公告)日: 2019-07-19
发明(设计)人: 阚志刚;陈彪;赵震;邓凌峰;吴杨;彭文波 申请(专利权)人: 北京梆梆安全科技有限公司
主分类号: G06F16/951 分类号: G06F16/951
代理公司: 北京志霖恒远知识产权代理事务所(普通合伙) 11435 代理人: 成丹
地址: 100083 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 原始数据 目标数据 数据提取 存储介质 服务器 存储 准确率 申请
【说明书】:

本申请公开了一种数据提取方法、装置、服务器及存储介质,该方法包括:获取原始数据名称与目标数据名称的对应关系列表及原始数据,该原始数据包括原始数据名称及该原始数据名称对应的数据值;基于该对应关系列表,从该原始数据中提取该原始数据名称对应的数据值;存储提取的该数据值,存储的该数据值作为目标数据名称对应的目标数据。本申请实施例提供的数据提取方法及装置,通过利用原始数据名称与目标数据名称的对应关系列表,实现了目标数据的批量提取,提高了数据提取效率及准确率。

技术邻域

本申请一般涉及计算机技术领域,具体涉及一种数据提取方法、 装置、服务器及存储介质。

背景技术

在提取网页中数据时,利用爬虫将有用的目标数据从原始数据中 进行结构化的提取、清洗并存储。通常采用的提取方法有正则表达式、 及JSONPath。

正则表达式是对字符串操作的一种逻辑公式,即利用预先定义的 特定字符及特定字符的组合,组成一个“规则字符串”,该“规则字符 串”用于表达对字符串的过滤逻辑。通过正则匹配的方式,加入匹配 规则,可以匹配出待提取的数据。JSONPath是一种信息抽取类 库,是从JS对象简谱(JavaScript Object Notation,JSON)中抽取指 定信息的工具,通过表达式对多个层级之中的JSON数据,依次提取。

对于通过爬虫采集到的多样化的JSON格式的原始数据,由于正 则表达式的匹配规则繁杂,使得数据提取流程复杂,提取效率低下, 出错率高。而JSONPath方法仅能够对JSON数据中多个层级之中的相 同名称的数据做批量提取,无法对不同名称的数据作批量提取,使得 数据提取效率低。

发明内容

鉴于现有技术中的上述缺陷或不足,期望提供一种数据提取方法、 装置、服务器及存储介质,以提高数据提取效率。

第一方面,本申请实施例提供一种数据提取方法,该方法包括:

获取原始数据名称与目标数据名称的对应关系列表及原始数据, 该原始数据包括原始数据名称及该原始数据名称对应的数据值;

基于该对应关系列表,从该原始数据中提取该原始数据名称对应 的数据值;

存储提取的该数据值,存储的该数据值作为目标数据名称对应的 目标数据。

第二方面,本申请实施例提供一种数据提取装置,该包括:

获取模块,用于获取原始数据名称与目标数据名称的对应关系列 表及原始数据,该原始数据包括原始数据名称及该原始数据名称对应 的数据值;

提取模块,用于基于该对应关系列表,从该原始数据中提取该原 始数据名称对应的数据值;

存储模块,存储提取的该数据值,存储的该数据值作为目标数据 名称对应的目标数据。

第四方面,本申请实施例提供一种服务器,包括存储器、处理器 以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于, 所述处理器执行所述程序时实现如第一方面所述的数据提取方法。

第五方面,本申请实施例提供一种计算机存储介质,其上存储有 计算机程序,该计算机程序用于实现如第一方面所述的数据提取方法。

综上,本申请实施例提供的数据提取方法及装置,通过获取原始 数据及原始数据名称与目标数据名称的对应关系列表,并基于获取的 对应关系列表,提取原始数据中与原始数据名称对应的数据值,进而 将该数据值作为目标数据名称对应的值进行存储,从而利用原始数据 名称与目标数据名称的对应关系列表,实现了相同或不同名称的目标 数据的批量提取,提高了数据提取效率及准确率。

进一步的,本申请实施例通过利用预设的目标数据列表,将提取 到的数据值存储在目标数据列表中,使得数据值与目标数据列表中的 目标数据名称对应,从而简化了提取数据存储的过程。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京梆梆安全科技有限公司,未经北京梆梆安全科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910099500.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top