[发明专利]一种基于网络爬虫的商品动态预测方法及系统在审

申请号：	201810628771.3	申请日：	2018-06-19
公开（公告）号：	CN108876458A	公开（公告）日：	2018-11-23
发明（设计）人：	周鑫;施险峰;褚金一;莫婷	申请（专利权）人：	湖北国网华中科技开发有限责任公司
主分类号：	G06Q30/02	分类号：	G06Q30/02
代理公司：	上海精晟知识产权代理有限公司 31253	代理人：	冯子玲
地址：	430000 湖北省武汉市东湖新***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	动态预测网络爬虫业务场景可视化建模网络数据分析操作流程多个网站辅助用户工作效率平滑处理数据清洗自动获取归一化统计学自定义最大化清洗分析查询决策
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于网络爬虫的商品动态预测方法及系统，通过“数据爬取→清洗→处理→查询→建模→可视化呈现”完整的网络数据分析的方法，用户可以根据特定业务场景自定义分析操作流程，实现工作效率的最大化，利用各种针对性的反爬技术爬取多个网站的数据，支持后端word数据自动获取等，并提供多种统计学方法进行数据清洗、归一化、平滑处理等方法，然后结合实际的业务场景进行建模与分析，最终以多种可视化图表展现，提升了数据质量，辅助用户进行决策。

技术领域

本发明涉及网络信息处理技术领域，具体的说是一种基于网络爬虫的商品动态预测方法及系统。

背景技术

在从网络上海量商品信息数据源中获取信息的系统中，绝大部分是为了提升查询与检索效率，例如在同时运行多个针对不同站点的爬虫以同时爬取大量信息时，由于各个数据源各自的特点，往往会形成各自的更新模式，通过对各爬虫间需要的带宽进行动态地进行预测，作为动态带宽分配的依据。即市面上的网络爬虫系统均是针对提升爬取效率或检索效率的技术研究，缺少基于数据的统计处理、呈现以及对数据深层价值的挖掘。以上爬取技术缺乏业务场景的依托，对实际工作上的提升效果较小，不利于推广。事实上，随着网络爬虫技术的普及，越来越多的网站基于数据资产的保护会制定各种反爬策略，致使爬取失败甚至ip被封，同时网站数据格式不一，存储方式不限于文字、表格等形式，会有pdf、word等文件的形式存储，而且对于某些网站数据更新时间较为频繁，数据量级高达千万级，对整个数据检索影响极大。

基于此，针对上述现状中存在的局限性，本发明提出了一种实现工作效率的最大化的基于网络爬虫的商品动态预测方法及系统。

发明内容

为了解决上述现有技术中存在的问题，本发明提供一种实现工作效率的最大化的基于网络爬虫的商品动态预测方法及系统。

本发明解决其技术问题所采用的技术方案是：

一种基于网络爬虫的商品动态预测方法，包括以下步骤：

S1、对目标网站的关键字段或文件进行爬取；

S2、对爬取的数据进行处理，得到结构化的数据后存储；

S3、对数据进行时间序列分析，得到特定字段与时间段关系的预测模型；

S4、通过预测模型，根据不同的数据查询，得到需要的预测结果。

进一步地，所述步骤S1还包括需要对所有待爬取的目标网站所需的关键字段确认和整合，统一展示信息表。

进一步地，所述步骤S1还包括需要对目标网站的文件下载后进行后台自动打开解析，获取相应的数据。

进一步地，所述步骤S2中对爬取的数据进行处理的步骤具体包括：