[发明专利]一种面向多来源数据管理的半自动化数据采集更新方法有效

专利信息
申请号: 202110363545.9 申请日: 2021-04-02
公开(公告)号: CN113094382B 公开(公告)日: 2022-12-06
发明(设计)人: 温延龙;王艺茹;皮春莹;郑羽辰;乜鹏 申请(专利权)人: 南开大学
主分类号: G06F16/23 分类号: G06F16/23;G06F16/25;G06F16/951
代理公司: 合肥晨创知识产权代理事务所(普通合伙) 34162 代理人: 宋仔娟
地址: 300071*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 来源 数据管理 半自动 数据 采集 更新 方法
【权利要求书】:

1.一种面向多来源数据管理的半自动化数据采集更新方法,其特征在于,该方法包括如下步骤,

步骤1、用户建立数据类型库,并为类型库配置不同来源;

步骤2、用户为数据类型库中的来源设置数据抓取规则,并启动源数据采集任务获取网页中的源数据;

步骤3、用户启动数据预处理任务,对步骤2中得到的源数据进行初步预处理,提取出来源网页中的网页信息;

所述步骤3中的数据预处理任务是指,对抓取的网页源数据进行网页结构的梳理,根据用户提供的匹配规则提取出网页中的所有标题项;

所述步骤3数据的预处理操作是将网页中出现的所有网页标题提取出来,形成一张对应关系表的一列,用户需要在下一步中配置对应规则,即网页标题到属性名的转换规则;

步骤4、用户基于数据预处理得到的网页信息,进行系统配置,并在配置完成后启动数据处理任务,对数据进行处理或更新;

所述步骤4中的系统配置的步骤包括:

步骤4.1、用户查看各来源数据预处理结果,确定该数据类型库的最终属性名;

步骤4.2、用户根据步骤4.1中确定的属性名,分别为每个来源配置网页标题到属性名的对应关系;即在该对应关系下,该来源网页中的标题项及其内容将会展示在对应的属性名下;

所述步骤4中启动数据处理任务包括以下步骤:

步骤4.3、用户启动数据处理任务,得到根据标题-属性配置转化之后的最终数据,该数据在不同来源中的结构相同,都与步骤4.1中用户确定的属性名格式一致;

所述步骤4.3用户在完成配置后可以启动数据处理任务,该任务将会根据用户配置的网页标题到属性名的对应规则进行相应的转换,即建立一张以所有属性名标题的表,数据源中的每一条数据对应标题下的一行数据,行与列的交叉即为数据处理任务转换的结果;

步骤4.4、用户对得到的最终数据进行汇总利用,在出现数据时效性降低、数据完整性被破坏情况时,可以利用系统提供的更新任务,重新进行数据采集和处理,保证数据的一致性和完整性;

所述步骤4对数据进行更新,包括两种情况:一是系统后台运行的监测任务监测到网页数据较本地数据有更新时,启动数据采集任务重新进行采集;二是,用户发现本地存储数据的时效性降低时,可以启动数据采集任务重新进行更新采集。

2.如权利要求1所述的面向多来源数据管理的半自动化数据采集更新方法,其特征在于,所述步骤1中的数据类型库是指用户需要收集的任意一种类型的数据,为其命名并在系统中创建。

3.如权利要求1所述的面向多来源数据管理的半自动化数据采集更新方法,其特征在于,所述步骤1中用户在配置不同来源时,主要包括以下步骤:

步骤1.1、新增一个来源时,首先查看系统来源库中是否包含该来源;

步骤1.2、如果系统来源库中包含该来源,则用户只需将该来源添加到该数据类型库中;

步骤1.3、如果系统来源库中不包含该来源,则用户需要添加新来源,录入来源信息包括设置来源信息、来源地址、上传数据抓取文件。

4.如权利要求1所述的面向多来源数据管理的半自动化数据采集更新方法,其特征在于,所述步骤2中用户为数据类型库中的来源设置抓取规则时,若用户采用的是系统来源库中的来源,则不需要再提供抓取规则。

5.如权利要求1所述的面向多来源数据管理的半自动化数据采集更新方法,其特征在于,所述步骤2中用户为数据类型库中的来源设置抓取规则,所述抓取规则自定义抓取规则。

6.如权利要求1所述的面向多来源数据管理的半自动化数据采集更新方法,其特征在于,所述步骤3中的网页信息为网页标题。

7.如权利要求1所述的面向多来源数据管理的半自动化数据采集更新方法,其特征在于,所述步骤4在完成数据预处理操作之后,用户已经得到所有来源的网页标题列表,用户可以参阅该列表配置该数据类型库的全局属性名,也即用户希望最后保存的数据属性或数据格式。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110363545.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top