[发明专利]一种数据析取方法及装置在审
申请号: | 201711401970.2 | 申请日: | 2017-12-22 |
公开(公告)号: | CN108334542A | 公开(公告)日: | 2018-07-27 |
发明(设计)人: | 刘庭绪;张龄之 | 申请(专利权)人: | 山东浪潮云服务信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 李世喆 |
地址: | 250100 山东省济南市高*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 任务执行 数据析取 服务器 析取 目标数据 数据类型 | ||
本发明提供了一种数据析取方法及装置,该方法包括:设置至少一个任务执行服务器,其中,每一个所述任务执行服务器中包括至少一种数据析取工具;确定待析取任务包括的数据类型;根据所述数据类型,在所述至少一个任务执行服务器中确定出目标任务执行服务器;从所述目标任务执行服务器包括的至少一种数据析取工具中,选择出目标数据析取工具;利用所述目标数据析取工具执行所述待析取任务。因此,本发明提供的方案可以满足不同的数据析取需求。
技术领域
本发明涉及计算机技术领域,特别涉及一种数据析取方法及装置。
背景技术
随着信息技术和互联网的不断迅速发展,网页中存在大量未经加工的数据,通过析取这些网页中的数据,来完成信息推荐、信用评级、产品评价以及电商等级评定等应用操作。
目前,从网页中进行数据析取的方法通常为:针对不同数据类型的析取任务定制编译出不同的析取规则。然后利用定制编译出的析取规则执行对应数据类型的析取任务,以析取出所需的数据。由于每一种析取规则只能执行其对应数据类型的析取任务,因此,现有的方式进行数据析取时只能满足一种数据析取需求。
发明内容
本发明实施例提供了一种数据析取方法及装置,可以满足不同的数据析取需求。
第一方面,本发明实施例提供了一种数据析取方法,该方法包括:
设置至少一个任务执行服务器,其中,每一个所述任务执行服务器中包括至少一种数据析取工具;
确定待析取任务包括的数据类型;
根据所述数据类型,在所述至少一个任务执行服务器中确定出目标任务执行服务器;
从所述目标任务执行服务器包括的至少一种数据析取工具中,选择出目标数据析取工具;
利用所述目标数据析取工具执行所述待析取任务。
优选地,
所述根据所述数据类型,在所述至少一个任务执行服务器中确定出目标任务执行服务器,包括:
根据所述数据类型确定执行所述待析取任务的负载要求;
确定每一个所述任务执行服务器在当前时间的负载信息;
根据所确定的负载信息以及所述负载要求,确定出所述目标任务执行服务器,其中,所述目标任务执行服务器的负载信息与所述负载要求的匹配度最高。
优选地,
所述待析取任务进一步包括第一待析取网站以及至少一个待析取信息;
所述利用所述目标数据析取工具执行所述待析取任务,包括:
确定所述第一待析取网站包括的至少一个地址层以及每一个所述地址层包括的至少一个种子地址;
利用所述目标数据析取工具从所确定的种子地址中析取所述至少一个待析取信息对应的至少一个目标数据,其中,所述至少一个目标数据为所述数据类型的数据。
优选地,
在所述利用所述目标数据析取工具执行所述待析取任务之后,进一步包括:
A1:在所述目标数据析取工具执行所述待析取任务的累计执行时长达到预设的时长阈值时,判断所述目标数据析取工具是否执行完所述待析取任务,如果否,执行A2;
A2:从所述目标任务执行服务器包括的未被选择的数据析取工具中,选择出新的目标数据析取工具;
A3:利用新的所述目标数据析取工具执行所述待析取任务,并执行A1。
优选地,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东浪潮云服务信息科技有限公司,未经山东浪潮云服务信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711401970.2/2.html,转载请声明来源钻瓜专利网。