[发明专利]基于活动的社交网络下的一种结合环境数据的活动出席预测方法有效
申请号: | 201810044755.X | 申请日: | 2018-01-17 |
公开(公告)号: | CN108133296B | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 姜文君;张继锋;任德盛 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q10/06;G06Q50/00 |
代理公司: | 深圳市中原力和专利商标事务所(普通合伙) 44289 | 代理人: | 胡国良 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 活动 社交 网络 一种 结合 环境 数据 出席 预测 方法 | ||
1.一种基于活动的社交网络下结合环境数据的活动出席预测方法,其特征在于,包括如下步骤:
步骤一:收集客户参加活动的历史数据;
步骤二:将活动分为户外活动和室内活动;确定天气数据、出席成本和活动时间分别对客户的户外活动和室内活动出席率的影响;
步骤三:对于室外活动,将天气数据按照出现频率进行量化,天气数据包括晴、雨、阴、多云、雪,确定天气数据对活动出席率的影响;
步骤四:对于室内活动,根据温度和湿度计算天气舒适度指数,确定天气舒适度指数对活动出席率的影响;对于室内活动计算出用户对活动的兴趣度与活动距离对用户出席率影响的权重之比;衡量用户对活动的兴趣度与活动距离对出席概率的影响程度;
步骤五:确定客户的活动出席成本,所述活动出席成本包括时间成本和经济成本;
步骤六:确定客户参加活动的季节性偏好;
步骤七:综合步骤一到步骤六,构建每个客户参加活动的概率模型,汇总得到活动最终出席率的预测模型;
所述步骤七中构建每个客户参加活动的概率模型步骤如下:
7.1)标注点的搭建:根据户外活动、室内活动、天气数据、出席成本季节偏好性进行特征向量,即标注点的搭建,搭建方法如下:若某一个活动为e0;参加活动e0的用户集为Ue0,人数为N个,分别设为u1,u2,u3,u4……uN;
用户i与活动之间的距离为D(ui,e0),i∈(1,N),u为距离标识,ui表示用户i的距离标识;那么活动e0的距离变量D(e0)为:
D(e0)=D(ui,e0) (1);
用户i的兴趣度为用户i参加的活动中,和e0同类别的活动与活动总数之比Ii;那么整个活动的参加用户兴趣度为:
I(e0)=Ii (2);
则活动E的时间成本为:Time_Cost(e0)、经济成本为Eco_Cost(e0)、季节性偏好为:Import_season(e0);然后分为以下两种情况:
1)对于室内活动:天气因素是通过改变权重来影响活动出席的,
因此构建标注点形式的特征向量:
(label,(y1*I(e0),y2*D(e0),y3*Time_Cost(e0),y4*Eco_Cost(e0),y5*Import_season(e0)));
y1,y2,y3,y4,y5为各因素的权重,y1,y2,y3,y4,y5的比值为:β:lg(|DI-64.5|+10):0.5:0.5:0.5;
其中,β表示在理想舒适度指数64.5下,用户兴趣度与用户-活动距离对出席影响的权重之比,DI表示舒适度指数;
2)对于室外活动:天气因素是直接影响活动出席的,因此构建标注点形式的特征向量:
(label,(y1*I(e0),y2*D(e0),y3*Time_Cost(e0),y4*Eco_Cost(e0),y5*Import_season(e0),y6*Weather(e0)));
y1,y2,y3,y4,y5,y6为各因素的权重,具体比值为:
β∶1∶0.5∶0.5∶0.5∶2;
其中标注点中的label值为1即为该用户参加了该活动,0即为该用户没有参加该活动;
7.2)训练样本的选取:对于属于同一类的活动建立正样本集P和负样本集Neg:首先提取两个阈值T1,T2来协助选择负样本集Neg,T1的计算方法为:
T1=min(I1,I2,I3,…IN) (3)
即某同一类活动T1值为参加这类活动的用户的兴趣度的最小值;Ii代表第i个用户参加e0活动的用户的兴趣度;
T2的计算方法为:
T2=max(D(u1,e0),D(u2,e0),D(u3,e0)...D(uN,e0)) (4)
即某类活动的T2值为参加这类活动的用户与活动的距离最大值;
对于负样本集Neg的构造,首先从没有参加活动E的所有用户中确定负样本候选集,确定负样本候选集U候选的方法为:
负样本集Neg=Sample(U候选) (6);
Train_dataset=正样本集P+负样本集Neg (7)
公式(5)中u表示未参加活动e0的用户,表示参加活动e0的用户集合;选择兴趣度大于阈值T1和/或距离小于阈值T2的未参加活动的用户作为候选的负样本用户集,通过随机抽样的方法抽取和正样本P数量相等的负样本用户,将这些用户按照步骤7.1)建立特征向量,其中标注点中的label值为0;正样本集P和负样本集Neg包含的样本相同;将正负样本集整合至一起得到训练样本集Train_dataset;
7.3)分类器的建立:训练样本集构建完成后,采用决策树中的gbdt决策树分类算法结合训练样本构建分类器模型,公式如下:
Modelpredict=fgdbt(Train_dataset) (8)
fgdbt()指gdbt决策树算法函数,Modelpredict为算法输出的模型;
7.4)测试样本的选取:模型训练完成后,进行预测,选取测试样本,若有待预测人数的未来活动e′,选择测试样本testuserset的方法如下:
Ce′是指和e′属于同类的所有活动的集合;
u∈Ce′是指参加过与活动e′同类活动的用户u,ec代表和活动e′同类别的活动,表示参加过和活动e′同类别的活动的用户,从用户u中选择兴趣度大于T2或者距离小于T1的用户作为候选测试样本用户集;然后测试样本集testpredict构建方法如下:
testpredict=labelpoint(testuserset,e′) (10)
labelpoint()表示步骤7.1表示的标注点构建方法;
将测试样本用户集与待预测活动e′按照步骤7.1构建特征向量,然后将其构建好的特征向量作为输入代入到决策树模型中,如下式所示,
outputpredict=modelgdbt(testpredict) (11)
outputpredict为输出结果集合,其中包含着每位候选用户的活动预测情况;modelgdbt()表示决策树模型;
计算得到预测会出席的人数,计算方法如下所示:
outputlabel=1代表预测结果中label值为1,即预测的用户出席活动,表示将预测结果为出席活动的用户数量进行累加,以得到出席未来活动e′的出席人数Npredict;
所述步骤三中,天气数据按照出现频率进行量化的方法为:
Weather(e)=n-index(e)
Weather(e)表示活动e的天气方面的因素,Weather(e)越大,说明某种天气出现次数越多;n表示天气的种类总数;index(e)表示活动e举办时的天气进行量化后的数字,活动e举办时出现次数最多的天气用数字0表示,出现第二多的用1表示,依此类推,出现次数最少的天气用数字n-1表示,index(e)的取值范围是0-n;
所述步骤四中对室内活动天气数据的处理方法为:
首先计算天气数据的舒适度指数DI:DI=T-(0.55-0.55f)(T-58);其中DI表示舒适度指数,T表示日平均温度,f表示相对湿度;然后计算在理想舒适度指数64.5下,用户兴趣度与用户-活动距离对出席影响的权重之比β;再计算出在不同舒适度指数用户兴趣度与用户-活动距离对出席影响的权重之比:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810044755.X/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理