[发明专利]分布式信息采集方法以及装置在审
申请号: | 202010101388.X | 申请日: | 2020-02-19 |
公开(公告)号: | CN111401979A | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 张永军;毛文静;崔翊翔;郭红雁 | 申请(专利权)人: | 北京值得买科技股份有限公司 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06;G06Q30/02;G06F16/955 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100160 北京市丰台区汽车博物*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 信息 采集 方法 以及 装置 | ||
本公开是关于一种分布式信息采集方法、装置、电子设备以及存储介质。其中,该方法包括:根据数据源生成数据抓取任务信息,所述数据抓取任务信息包含配置信息;根据数据抓取任务信息进行分布式数据抓取,生成抓取结果;根据预设模版解析规则,将所述抓取结果进行解析,生成模版解析信息;根据预设二次解析规则,将所述模版解析信息进行解析,生成二次解析信息;根据预设数据合并规则,将所述二次解析信息进行数据合并处理,生成数据合并信息;根据预设价格计算规则,将所述数据合并信息进行价格计算处理,生成价格信息。本公开可以通过分布式商品信息抓取、解析计算,生成符合不同需求的价格信息。
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种分布式信息采集方法、装置、电子设备以及计算机可读存储介质。
背景技术
随着电子商务的快速发展,电商网站成为大量商品信息数据的载体平台,有效地提取并利用这些商品相关信息数据成为数据处理需要编队的巨大挑战。目前市场上各大电商平台竞争剧烈,也催生出了整合所有电商平台商品数据的需求,但也存在如下问题:同一件商品在每家电商平台中的价格不同,促销信息不同,优惠信息不同,展现方式不同;同一种品牌在每家电商平台中策略不同,侧重点不同,从而导致所出售的商品不同;电商平台的特点不同,导致商品的展现风格各不相同,有图片,有文字,更有音频和视频等丰富的多媒体载体。
现有技术一般是通过基于Python编写的Scrapy来解决,Scrapy因其可灵活配置,异步框架,自定义程度强,社区活跃,文档详细等优点而被广泛使用。但由于Scrapy仅支持命令行操作,没有WEB页面上的调试,控制,监控等功能,所以在开发和维护管理场景操作繁琐。加之Scrapy不支持分布式的解决方案,所以无法搭建分布式抓取系统,不能发挥出分布式集群的最大化效能。
因此,需要提供一种或多种至少能够解决上述问题的技术方案。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种分布式信息采集方法、装置、电子设备以及计算机可读存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
根据本公开的一个方面,提供一种分布式信息采集方法,包括:
任务获取步骤,根据数据源生成数据抓取任务信息,所述数据抓取任务信息包含配置信息;
数据抓取步骤,根据数据抓取任务信息进行分布式数据抓取,生成抓取结果;
模版解析步骤,根据预设模版解析规则,将所述抓取结果进行解析,生成模版解析信息;
二次解析步骤,根据预设二次解析规则,将所述模版解析信息进行解析,生成二次解析信息;
数据合并步骤,根据预设数据合并规则,将所述二次解析信息进行数据合并处理,生成数据合并信息;
价格计算步骤,根据预设价格计算规则,将所述数据合并信息进行价格计算处理,生成价格信息。
在本公开的一种示例性实施例中,所述任务获取步骤中,根据商品的商品编号SKUID数据源或商品分类页的统一资源定位符URL数据源生成数据抓取任务信息。
在本公开的一种示例性实施例中,所述数据抓取步骤中,通过配置异步网络框架,实现分布式数据抓取。
在本公开的一种示例性实施例中,所述数据抓取步骤还包括:若数据抓取失败,添加数据抓取失败标识,并重新抓取。
在本公开的一种示例性实施例中,所述模版解析步骤中,通过对象简谱json方式、正则方式或可扩展标记路径语言xpath方式将所述抓取结果进行解析,并校验所述模版解析信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京值得买科技股份有限公司,未经北京值得买科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010101388.X/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置