[发明专利]一种基于网络爬虫和经济统计学的网络零售发展指数系统在审

申请号：	201810763666.0	申请日：	2018-07-12
公开（公告）号：	CN108960927A	公开（公告）日：	2018-12-07
发明（设计）人：	孙守长	申请（专利权）人：	山东汇贸电子口岸有限公司
主分类号：	G06Q30/02	分类号：	G06Q30/02
代理公司：	济南信达专利事务所有限公司 37100	代理人：	王守梅
地址：	250100 山东省济南市***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网络零售网络爬虫经济统计学指数系统抓取采集数据辅助决策绩效评估平台数据运行特点指数数据指数算法大样本多维度监测宏观帮助发现
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于网络爬虫和经济统计学的网络零售发展指数系统，包括采用网络爬虫抓取电商平台数据，以大样本的采集数据为基础，建立指数算法模型，获得所需要的指数数据。本发明和现有技术相比，实现网络零售全面、多维度的发展监测，发现市场的运行特点和变动，总结网络零售宏观的发展规律，为政府、机构、企业等，提供绩效评估、辅助决策、风险揭示等方面的帮助。

技术领域

本发明涉及网络爬虫技术领域，具体地说是一种基于网络爬虫和经济统计学的网络零售发展指数系统。

背景技术

近几年来，国内电子商务发展迅猛，网络零售占据了电子商务较大比重的市场份额，已经成为推动社会经济发展的重要动力。全面、科学的指数系统成为了监测网络零售发展，分析电商行业宏观趋势和微观市场特征的必要工具。

网络爬虫是一种按照一定的规则，从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索。

经济统计学是统计学在经济领域中的应用，是以经济数据为研究对象，包括经济数据的采集、生成和传输，用统计方法分析经济数据背后的经济现象以及复杂经济系统的规律，从而为经济和管理决策服务。

网络爬虫可以获取指定网页的数据，抓取电商网站公开的交易数据、店铺信息、商品信息、评价数据。结合经济统计学方法对数据进行建模、分析，建立指数算法模型，实现反映网络零售发展的“晴雨表”。

发明内容

本发明的技术任务是针对以上不足之处，提供一种基于网络爬虫和经济统计学的网络零售发展指数系统，涉及到爬虫、建模、经济统计学等技术点。

本发明解决其技术问题所采用的技术方案是：一种基于网络爬虫和经济统计学的网络零售发展指数系统，包括采用网络爬虫抓取电商平台数据，以大样本的采集数据为基础，建立指数算法模型，获得所需要的指数数据。

进一步，优选的，包括网络爬虫模块、数据处理模块以及指数模型模块；

所述的网络爬虫模块，用于网站数据的抓取，并将抓取结果存入数据库；

所述的数据处理模块，用于对抓取的数据进行过滤、清洗；

所述的指数模型模块，用于数据的统计分析，得到实际需要的指标数据，并结合实际需要的维度及指标创建指数的算法模型，从而生成实际需要指标的指数数据。

进一步，优选的，所述的实际需要的维度包括，网络零售的区域单元、网络零售的行业单元、网络零售的专题单元；

网络零售的区域单元，根据全国34个省级行政区、333个地级行政区以及2856个县级行政区划分网络零售的区域；

网络零售的行业单元，根据统计局发布的15个标准行业划分网络零售的区域单元下的行业；