[发明专利]基于特征筛选与半监督学习的用户成长性画像构建方法有效
申请号: | 201811199944.0 | 申请日: | 2018-10-16 |
公开(公告)号: | CN109359137B | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 王健;钱凌飞;董哲瑾;林鸿飞 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06K9/62 |
代理公司: | 大连星海专利事务所有限公司 21208 | 代理人: | 王树本;徐雪莲 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种用户成长性画像构建方法,一种基于特征筛选与半监督学习的用户成长性画像构建方法,包括以下步骤:(1)对原始用户数据进行预处理,(2)根据用户的行为数据,提取用户的行为特征和时间特征,(3)在行为特征和时间特征上进行特征筛选,(4)使用半监督学习扩大训练集,(5)训练一级模型,(6)模型融合,(7)用户成长值的预测。本发明除了关注用户的行为特征,还关注了用户的时间特征,并且使用特征筛选的方法选出其中区分度明显的特征,结合半监督方法扩充训练集,最后使用模型融合的方法,提高模型最终的准确率和稳定性。 | ||
搜索关键词: | 基于 特征 筛选 监督 学习 用户 成长 画像 构建 方法 | ||
【主权项】:
1.一种基于特征筛选与半监督学习的用户成长性画像构建方法,其特征在于包括以下步骤:步骤1、对原始用户数据进行预处理,选择2017全国社会媒体处理大会SMP CUP评测任务CSDN用户画像数据集,并对其进行预处理,具体包括以下子步骤:(a)把9个文件中的用户数据,包括用户浏览记录、用户发文记录、用户评论记录、用户点赞记录、用户点踩记录、用户点喜欢记录、用户关注记录、用户私信记录以及标注的用户成长值,通过用户ID进行整合;(b)根据用户的各个行为的时间记录,统计用户各个行为的次数,然后对整合、统计之后的用户数据表的空值进行填充,其中,行为次数的空值使用0填充,时间记录的空值使用‑1填充;步骤2、根据用户的行为数据,提取用户的行为特征和时间特征,具体包括以下子步骤:(a)提取统计得到的用户浏览次数、用户发文次数、用户评论次数、用户点赞次数、用户点踩次数、用户点喜欢次数、用户关注次数和用户私信次数作为用户的八个行为特征;(b)抽取用户一年的活跃天数作为一个时间特征,另外,根据用户的所有活动时间记录,统计用户的活跃月份数,然后加上用户最开始的活跃月份,作为修正的活跃月数特征,最后提取用户的最后活跃时间,把用户最后活跃时间与用户所有行为次数之和分别归一化后相加,作为修正的用户最后活跃时间特征,一共形成三个用户时间特征,即用户一年的活跃天数,修正的活跃月数,修正的用户最后活跃时间三个用户时间特征;步骤3、在行为特征和时间特征上进行特征筛选,具体包括以下子步骤:(a)通过L1范数进行特征筛选,使用支持向量机回归SVR模型,设置惩罚项为L1,使用的目标函数通过公式(1)进行描述,
其中,
表示SVR原有的成本项,w表示特征的权重,||w||1表示w的L1范数,由于L1范数非0,所以添加L1正则项之后会迫使不重要特征的权重趋于0,之后筛选掉特征权重小于预先设定的阈值1e‑5的特征;(b)通过树模型进行特征筛选,使用梯度提升树GBT训练模型,然后计算每个特征在所有树中的重要度平均值,把权重低于平均值的特征筛选掉;步骤4、使用半监督学习扩大训练集,采用SVR训练样本预测未标注数据的成长值,然后使用基于协同训练的半监督回归算法COREG来扩大训练集,具体操作是使用公式(2)来计算预测的未标注样本成长值的置信度Δxu,
其中,xi表示已标注的样本,h表示用已标注的样本学习得到的SVR模型,Ω表示每一个待测样本的k个邻近结点组成的集合,这里k取7,yi表示已标注样本的真实值,H表示将未标注样本点(xu,yu)加入训练集后训练得到的SVR模型,最后取Δxu值最大的前1/8个未标注样本和其预测结果,将其当作已标注数据,来达到扩充训练样本的目的;步骤5、训练一级模型,共有如下5个一级模型:(a)使用全部的行为特征训练GBT模型;(b)使用基于树模型筛选后的用户行为特征和时间特征,训练SVR模型;(c)使用基于树模型筛选后的用户行为特征和时间特征,再结合半监督学习,训练随机森林RF回归模型;(d)使用基于树模型筛选后的用户行为特征和时间特征,再结合半监督学习,训练k邻近KNN回归模型;(e)使用基于树模型筛选后的用户行为特征和时间特征,再结合半监督学习,训练更多树回归ETR模型;步骤6、模型融合,使用stacking方法融合上述5个一级模型,将上述5个一级模型的输出结果输入GBT模型进行融合;步骤7、用户成长值的预测,利用步骤5、6得到的模型,在未标注数据上进行预测,得到未标注用户的成长值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811199944.0/,转载请声明来源钻瓜专利网。