[发明专利]一种物流大数据采集方法在审

申请号：	201911406474.5	申请日：	2019-12-31
公开（公告）号：	CN113127714A	公开（公告）日：	2021-07-16
发明（设计）人：	李晶磊	申请（专利权）人：	云南青年学园科技有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/955;G06Q10/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	650000 云南省昆明市官***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种物流数据采集方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种物流大数据采集方法，其特征在于：数据来源主要通过已有的统计数据和爬虫两种方式来获取，数据包括：全国交通纸质地图，中国城市统计年鉴，中国统计年鉴，中国铁路时刻网和中国民航信息网，物流网站，使用Python提供的SCRAPY框架进行爬虫程序的编写；

在数据采集的阶段，将出现很多数据质量的问题，导致最终的数据部分属性缺失或重复，又或者是出现了明显的错误，这里我们的处理方式有三点：第一，对于重复的数据将其删除；第二，将明显错误的数据删除；第三，对于缺失的数据将采用KNN算法补充完整；

采用Apriori算法实现关联规则的挖掘，Apriori算法的步骤可以概括为以下7条：1）首先会扫描整个数据项集，产生符合要求的1项集的集合，这里用C1表示；

2）根据定义好的最小支持度，在上一步的结合Cl中选出频繁项集，这里用Ll表示；

3）对阶数kl循环执行第4,5,6步；

4）对K阶频繁项集Lk进行Apriori算法的连接步和剪枝步，产生了k+l阶的项集Ck+l；

5）类似于第2步，从上一步产生的候选集Ck+1中根据支持度的阈值选出频繁项集，这里用Lk+l表示；

6)如果这里最后得到的L不是空集，则继续执行第4步，此时的k将会自增1，否则将会执行第7步；

7)根据事先定义好的最小置信度，从产生的频繁项集中得出强关联规则，算法到此为止；

通过紧密中心性和介数中心性判断市级区域在全国范围内的重要性；

然后利用GN 算法得到不同市级区域之间最短路径；

最后利用K均值算法将聚类市级区域是否属于一个分组的判断标准，可以认为如果两个样本之间的距离越近，他们处于同一分组的概率就越高，而最终的簇应该是由彼此距离很近的一群样本组成的。

2.根据权利要求1所述的一种物流大数据采集方法其特征在于：将全国交通纸质地图的道路网矢量化后可以得到每个区域的高速公路、省道和国道的道路总长度，再结合中国铁路时刻网和中国民航信息网获取的火车、高铁和航班信息共同作为表征交通发展水平的交通便捷性；

通过中国城市统计年鉴获取每个城市的GDP数据，用以表征该地区的经济发展水平，通过中国城市统计年鉴获取每个城市的物流业从业人数，这里认定的物流业包括仓储业、货物运输业和邮政业，物流业从业人数为三者人数的总和；

针对物流网站通过使用网络爬虫获取的数据，包括城市与城市之间设置的专线数据、区域物流企业的分布数噩、快递公司的分布数蜇、区域内的物流业求职招聘数量、区域物流货源信息以及区域内的物流业仓库数位和仓储总面积。

3.根据权利要求1所述的一种物流大数据采集方法其特征在于：物流网站包括：包括全国物流信息网、中国物通网、今日物流通、中国物流网、好运物流网、中国物流交易中心和物流天下网。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于云南青年学园科技有限公司，未经云南青年学园科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911406474.5/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载