[发明专利]一种基于快递数据预测城市房屋需求的方法有效
申请号: | 201810980223.7 | 申请日: | 2018-08-27 |
公开(公告)号: | CN109214863B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 於志文;李青洋;郭斌;路新江 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06Q50/16;G06K9/62 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 金凤 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于快递数据预测城市房屋需求的方法,涉及城市多源数据挖掘与分析领域,通过分析快递数据体现出来的信息估算小区常驻人口在一定时间范围的流入流出情况,结合其他数据源衡量小区对于人们的吸引力,在已知上一时间段的相关信息的情况下,预测下一时间段小区房屋的需求变化。本发明通过快递数据表现出的用户的快递行为规律,以及分析快递行为特征与用户离开现居住的小区的关联关系,估算小区整体常驻人口流动的可能性,进而结合小区对用户的吸引力和已知该事件段的小区房屋需求变化,训练回归模型,估算下一时间段的小区房屋需求。 | ||
搜索关键词: | 一种 基于 快递 数据 预测 城市 房屋 需求 方法 | ||
【主权项】:
1.一种基于快递数据预测城市房屋需求的方法,其特征在于包括下述步骤:步骤1:根据每一条快递数据的发件地址和收件地址,按照小区分类,划分出同属于同一小区的用户数据;先通过在线地图提供的接口获取快递数据中各个地址对应的经纬度,利用DBSCAN聚类算法将各个地址根据经纬度之间的距离进行聚类,聚出的所有类簇中除了小区类簇之外还包含有其他类簇,再根据类簇中地址包含的与小区相关的关键词筛选出各个小区对应的类簇,得到筛选后包含小区类簇的数据;步骤2:针对步骤1中筛选出的含有小区类簇的用户数据,将用户数据中“用户电话”字段来唯一识别用户,将小区中相同用户的历史快递数据按照用户电话信息聚合归类,提取每个用户的个人快递行为特征,个人快递行为特征包括:用户的快递频次、用户两次快递的平均时间间隔、用户快递的物品种类、用户快递的物品重量、用户快递交互双方地址之间的物理距离,进而构建同一个小区内每个用户快递行为特征的矩阵
矩阵
的每一行代表一个用户,每一列代表一种快递行为特征;步骤3:步骤2中得到的矩阵
会有部分缺失,利用正则化奇异值分解方法将矩阵
中的空缺值补全,补全方法的步骤如下:步骤2.1:首先将同一行政区中的各个小区的快递行为特征矩阵合并到同一个矩阵
中,之后将
矩阵进行分解,表示为公式(1):
其中,U表示用户的数量,F表示快递行为特征的数量,K表示所分解出的矩阵的阶数,本发明K取为40;此外,d表示各个行政区,t表示时间窗口,则
表示在时间窗t的范围内,位于行政区d中的所有小区的快递行为特征矩阵,且该矩阵为U×F维,
与
表示分解
得到的两个矩阵,维度分别为U×K和K×F;步骤2.2:由分解得到的矩阵
与
计算原矩阵中的空缺值,表示为公式(2):
其中,puk表示
矩阵的第u行数据,qkf表示
矩阵的第f列数据,bu为一个偏置量,表示小区本身的特征,
由puk和qkf进行内积运算得到,表示
矩阵的第u行第f列位置的值,分解得到的矩阵
与
通过梯度下降法学习得到,当公式(3)达到最小值时,即确定了
与![]()
其中最后三项为惩罚因子,参数λ取0.01,通过梯度下降法,不断更新
与
当中的值,最终得到使得公式(3)达到最小值的矩阵,即最接近原矩阵的分解矩阵,并根据原矩阵
当中的空缺值的位置将对应的
与
的行和列进行内积计算得到补全值;步骤4:根据步骤3中补全的特征,计算每个用户在快递时间、快递物品类型、快递物品重量结合交互方距离三个方面离开小区的流动可能性,每个用户的流动可能性,即离开小区的可能性,详细步骤如下:建立用户快递行为特征与用户流动性之间的关系模型,分别定义快递行为产生的时间,用户快递的物品类型,用户快递物品的重量和距离与用户离开小区的可能性的关系,快递行为的时间与用户离开小区的可能性的关系表示为:
其中,
表示在时间窗t中第m个小区的第n个用户在快递行为的时间方面估算出的离开该小区的可能性,ts和te表示时间窗的开始和结束时间,tf和tl表示在时间窗内第一次快递行为以及最后一次快递行为发生的时间,公式(4)表示在时间窗内,最近有过快递行为的用户在一段时间内离开该小区的可能性,时间窗口的大小根据用户两次快递间隔的分布确定;用户快递的物品类型与用户离开小区的可能性的关系表示为:
其中,
表示在时间窗t中第m个小区的第n个用户在快递物品类型的方面估算出的离开该小区的可能性,Int表示第n个用户快递的物品的类型,ωI表示该物品类型在反映用户离开小区的可能性方面的权重,所述的物品类型使用电子商务平台对于商品的17种分类;针对用户快递物品的重量和距离与用户离开小区的可能性的关系表示为公式(6)
其中,
表示在时间窗t中第m个小区的第n个用户在快递物品重量和运送距离的方面估算出的离开小区的可能性,wnt表示快递物品的重量,disnt表示快递运送的距离;每个用户的流动可能性用向量表示为:
则同一个小区当中所有用户的流动可能性构建矩阵为:
对矩阵的每一列取平均运算得到第m个小区关于上述三个方面的小区整体人口流动可能性,用向量表示为:
将城市中所有通过快递地址数据聚类筛选出的m个小区整体人口流动性向量构建矩阵为:
用于训练小区房屋需求预测模型;步骤5:获取小区信息,包括小区房屋售价,小区建成年份,小区房屋销售量、小区所在行政区以及小区周边兴趣点信息,小区POI的多样性由公式(7)计算得到,由上述与小区相关的特征构建小区吸引力的特征矩阵
其中CAt表示在时间窗t所有小区对用户的吸引力,
是表示第m个小区对用户的吸引力的向量,由四个表示小区引力的特征组成,即小区所在行政区、小区的建造年份、小区房屋均价、POI种类的信息熵;根据步骤1得到的小区名称获取各个小区的相关信息,包括每个月小区房屋售出数量和房源数量,每个月房屋平均价格,小区建成时间以及小区所处的行政区;根据步骤1得到的小区范围中心点的经纬度,利用在线地图的接口获取小区周边500米的圆形区域中的兴趣点的数量和种类,根据相关信息提取能够体现小区对于居民的吸引力的特征,构建表示各个小区吸引力特征的矩阵,主要考虑小区位于的行政区,小区建造的年份,小区房屋的均价以及小区周围一定范围内兴趣点(POI)的数量和多样性,小区所在的行政区、建造年份、房屋均价等信息均从网络在线房屋交易平台得到,小区周围POI的数量和类型从在线地图提供的接口获得,另外,对于小区周边500米范围内POI的多样性的衡量,通过计算POI种类的信息熵,如公式(7)所示:
其中,pi表示小区周围第i类POI的数量;将影响各个小区自身对于用户吸引力的因素构建矩阵:
CAt表示在时间窗t所有小区对用户的吸引力,
表示第m个小区对用户的吸引力;步骤6:将步骤4和步骤5中计算得到的小区常驻人口流动的可能性矩阵
以及小区对用户的吸引力的矩阵CAt合并,构建需求特征矩阵DFt,且
根据房屋需求变化的时间窗口及需求特征建立线性回归模型LR,以小区需求特征矩阵为输入,以下一时间窗口的房屋需求相比该时间窗口的房屋需求变化为输出,训练线性回归模型,并通过训练得到的回归模型,基于时间窗口的小区需求特征,预测下一时间窗口相较该时间窗口的房屋需求变化,进而通过训练出的回归模型,在已知某一时间段小区人口流动情况、小区对用户的吸引力以及小区房屋需求变化的前提时,可预测下一时间段小区房屋需求相比上一时间段的变化;模型计算公式如下所示:HDt=DFt·W (8)HDt表示城市中所有小区在时间窗口t的房屋需求相较时间窗口t‑1的房屋需求变化,用向量表示为
已知的房屋需求变化
通过公式(9)计算得到:
其中,
表示第m个小区在时间窗口t中房源的数量,
表示第m个小区在时间窗口t中房屋的成交量,
表示第m个小区在时间窗口t‑1中房源的数量,
表示第m个小区在时间窗口t‑1中房屋的成交量,最后通过计算公式(10)求得DFt中各个特征对应的权重W:
得到W之后,再反过来输入一个新的时间窗的DFt+1,根据公式(8)计算新时间窗口t+1相较于上一时间窗口t的房屋需求变化HDt+1。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810980223.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种走失人员的搜寻方法及相关设备
- 下一篇:一种广告识别方法及装置、电子设备
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置