[发明专利]一种基于网络爬虫的商品动态预测方法及系统在审
申请号: | 201810628771.3 | 申请日: | 2018-06-19 |
公开(公告)号: | CN108876458A | 公开(公告)日: | 2018-11-23 |
发明(设计)人: | 周鑫;施险峰;褚金一;莫婷 | 申请(专利权)人: | 湖北国网华中科技开发有限责任公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02 |
代理公司: | 上海精晟知识产权代理有限公司 31253 | 代理人: | 冯子玲 |
地址: | 430000 湖北省武汉市东湖新*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 动态预测 网络爬虫 业务场景 可视化 建模 网络数据分析 操作流程 多个网站 辅助用户 工作效率 平滑处理 数据清洗 自动获取 归一化 统计学 自定义 最大化 清洗 分析 查询 决策 | ||
本发明涉及一种基于网络爬虫的商品动态预测方法及系统,通过“数据爬取→清洗→处理→查询→建模→可视化呈现”完整的网络数据分析的方法,用户可以根据特定业务场景自定义分析操作流程,实现工作效率的最大化,利用各种针对性的反爬技术爬取多个网站的数据,支持后端word数据自动获取等,并提供多种统计学方法进行数据清洗、归一化、平滑处理等方法,然后结合实际的业务场景进行建模与分析,最终以多种可视化图表展现,提升了数据质量,辅助用户进行决策。
技术领域
本发明涉及网络信息处理技术领域,具体的说是一种基于网络爬虫的商品动态预测方法及系统。
背景技术
在从网络上海量商品信息数据源中获取信息的系统中,绝大部分是为了提升查询与检索效率,例如在同时运行多个针对不同站点的爬虫以同时爬取大量信息时,由于各个数据源各自的特点,往往会形成各自的更新模式,通过对各爬虫间需要的带宽进行动态地进行预测,作为动态带宽分配的依据。即市面上的网络爬虫系统均是针对提升爬取效率或检索效率的技术研究,缺少基于数据的统计处理、呈现以及对数据深层价值的挖掘。以上爬取技术缺乏业务场景的依托,对实际工作上的提升效果较小,不利于推广。事实上,随着网络爬虫技术的普及,越来越多的网站基于数据资产的保护会制定各种反爬策略,致使爬取失败甚至ip被封,同时网站数据格式不一,存储方式不限于文字、表格等形式,会有pdf、word等文件的形式存储,而且对于某些网站数据更新时间较为频繁,数据量级高达千万级,对整个数据检索影响极大。
基于此,针对上述现状中存在的局限性,本发明提出了一种实现工作效率的最大化的基于网络爬虫的商品动态预测方法及系统。
发明内容
为了解决上述现有技术中存在的问题,本发明提供一种实现工作效率的最大化的基于网络爬虫的商品动态预测方法及系统。
本发明解决其技术问题所采用的技术方案是:
一种基于网络爬虫的商品动态预测方法,包括以下步骤:
S1、对目标网站的关键字段或文件进行爬取;
S2、对爬取的数据进行处理,得到结构化的数据后存储;
S3、对数据进行时间序列分析,得到特定字段与时间段关系的预测模型;
S4、通过预测模型,根据不同的数据查询,得到需要的预测结果。
进一步地,所述步骤S1还包括需要对所有待爬取的目标网站所需的关键字段确认和整合,统一展示信息表。
进一步地,所述步骤S1还包括需要对目标网站的文件下载后进行后台自动打开解析,获取相应的数据。
进一步地,所述步骤S2中对爬取的数据进行处理的步骤具体包括:
对爬取数据的关键字段缺失记录进行剔除;
对爬取数据的计量单位进行统一;
对仅更新时间变化的数据记录进行去重。
进一步地,所述步骤S3具体为:
S301、将选定品类的数据按照月份划分,然后进行时间序列建模,通过统计学方法进行拟合测试,搭建预测模型;
S302、采用部分历史数据,计算以月为单位的预测模型预测到的数据与实际历史数据的误差,选取误差最小的模型作为最终预测模型;
S303、将时间代入到预测模型中计算,得到预测的数据。
更进一步地,所述统计学方法为线性自回归方法和一阶指数平滑方法,使用ARMA模型进行计算。
进一步地,所述步骤S4中还包括根据关键字段设定多种筛选条件组合,同时保留用户历史查询条件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北国网华中科技开发有限责任公司,未经湖北国网华中科技开发有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810628771.3/2.html,转载请声明来源钻瓜专利网。