[发明专利]数据提取方法、装置、服务器及存储介质在审
申请号: | 201910099500.8 | 申请日: | 2019-01-31 |
公开(公告)号: | CN110032674A | 公开(公告)日: | 2019-07-19 |
发明(设计)人: | 阚志刚;陈彪;赵震;邓凌峰;吴杨;彭文波 | 申请(专利权)人: | 北京梆梆安全科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 北京志霖恒远知识产权代理事务所(普通合伙) 11435 | 代理人: | 成丹 |
地址: | 100083 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 原始数据 目标数据 数据提取 存储介质 服务器 存储 准确率 申请 | ||
本申请公开了一种数据提取方法、装置、服务器及存储介质,该方法包括:获取原始数据名称与目标数据名称的对应关系列表及原始数据,该原始数据包括原始数据名称及该原始数据名称对应的数据值;基于该对应关系列表,从该原始数据中提取该原始数据名称对应的数据值;存储提取的该数据值,存储的该数据值作为目标数据名称对应的目标数据。本申请实施例提供的数据提取方法及装置,通过利用原始数据名称与目标数据名称的对应关系列表,实现了目标数据的批量提取,提高了数据提取效率及准确率。
技术邻域
本申请一般涉及计算机技术领域,具体涉及一种数据提取方法、 装置、服务器及存储介质。
背景技术
在提取网页中数据时,利用爬虫将有用的目标数据从原始数据中 进行结构化的提取、清洗并存储。通常采用的提取方法有正则表达式、 及JSONPath。
正则表达式是对字符串操作的一种逻辑公式,即利用预先定义的 特定字符及特定字符的组合,组成一个“规则字符串”,该“规则字符 串”用于表达对字符串的过滤逻辑。通过正则匹配的方式,加入匹配 规则,可以匹配出待提取的数据。JSONPath是一种信息抽取类 库,是从JS对象简谱(JavaScript Object Notation,JSON)中抽取指 定信息的工具,通过表达式对多个层级之中的JSON数据,依次提取。
对于通过爬虫采集到的多样化的JSON格式的原始数据,由于正 则表达式的匹配规则繁杂,使得数据提取流程复杂,提取效率低下, 出错率高。而JSONPath方法仅能够对JSON数据中多个层级之中的相 同名称的数据做批量提取,无法对不同名称的数据作批量提取,使得 数据提取效率低。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种数据提取方法、 装置、服务器及存储介质,以提高数据提取效率。
第一方面,本申请实施例提供一种数据提取方法,该方法包括:
获取原始数据名称与目标数据名称的对应关系列表及原始数据, 该原始数据包括原始数据名称及该原始数据名称对应的数据值;
基于该对应关系列表,从该原始数据中提取该原始数据名称对应 的数据值;
存储提取的该数据值,存储的该数据值作为目标数据名称对应的 目标数据。
第二方面,本申请实施例提供一种数据提取装置,该包括:
获取模块,用于获取原始数据名称与目标数据名称的对应关系列 表及原始数据,该原始数据包括原始数据名称及该原始数据名称对应 的数据值;
提取模块,用于基于该对应关系列表,从该原始数据中提取该原 始数据名称对应的数据值;
存储模块,存储提取的该数据值,存储的该数据值作为目标数据 名称对应的目标数据。
第四方面,本申请实施例提供一种服务器,包括存储器、处理器 以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于, 所述处理器执行所述程序时实现如第一方面所述的数据提取方法。
第五方面,本申请实施例提供一种计算机存储介质,其上存储有 计算机程序,该计算机程序用于实现如第一方面所述的数据提取方法。
综上,本申请实施例提供的数据提取方法及装置,通过获取原始 数据及原始数据名称与目标数据名称的对应关系列表,并基于获取的 对应关系列表,提取原始数据中与原始数据名称对应的数据值,进而 将该数据值作为目标数据名称对应的值进行存储,从而利用原始数据 名称与目标数据名称的对应关系列表,实现了相同或不同名称的目标 数据的批量提取,提高了数据提取效率及准确率。
进一步的,本申请实施例通过利用预设的目标数据列表,将提取 到的数据值存储在目标数据列表中,使得数据值与目标数据列表中的 目标数据名称对应,从而简化了提取数据存储的过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京梆梆安全科技有限公司,未经北京梆梆安全科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910099500.8/2.html,转载请声明来源钻瓜专利网。