[发明专利]基于特征筛选与半监督学习的用户成长性画像构建方法有效

专利信息
申请号: 201811199944.0 申请日: 2018-10-16
公开(公告)号: CN109359137B 公开(公告)日: 2021-03-26
发明(设计)人: 王健;钱凌飞;董哲瑾;林鸿飞 申请(专利权)人: 大连理工大学
主分类号: G06F16/2458 分类号: G06F16/2458;G06K9/62
代理公司: 大连星海专利事务所有限公司 21208 代理人: 王树本;徐雪莲
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种用户成长性画像构建方法,一种基于特征筛选与半监督学习的用户成长性画像构建方法,包括以下步骤:(1)对原始用户数据进行预处理,(2)根据用户的行为数据,提取用户的行为特征和时间特征,(3)在行为特征和时间特征上进行特征筛选,(4)使用半监督学习扩大训练集,(5)训练一级模型,(6)模型融合,(7)用户成长值的预测。本发明除了关注用户的行为特征,还关注了用户的时间特征,并且使用特征筛选的方法选出其中区分度明显的特征,结合半监督方法扩充训练集,最后使用模型融合的方法,提高模型最终的准确率和稳定性。
搜索关键词: 基于 特征 筛选 监督 学习 用户 成长 画像 构建 方法
【主权项】:
1.一种基于特征筛选与半监督学习的用户成长性画像构建方法,其特征在于包括以下步骤:步骤1、对原始用户数据进行预处理,选择2017全国社会媒体处理大会SMP CUP评测任务CSDN用户画像数据集,并对其进行预处理,具体包括以下子步骤:(a)把9个文件中的用户数据,包括用户浏览记录、用户发文记录、用户评论记录、用户点赞记录、用户点踩记录、用户点喜欢记录、用户关注记录、用户私信记录以及标注的用户成长值,通过用户ID进行整合;(b)根据用户的各个行为的时间记录,统计用户各个行为的次数,然后对整合、统计之后的用户数据表的空值进行填充,其中,行为次数的空值使用0填充,时间记录的空值使用‑1填充;步骤2、根据用户的行为数据,提取用户的行为特征和时间特征,具体包括以下子步骤:(a)提取统计得到的用户浏览次数、用户发文次数、用户评论次数、用户点赞次数、用户点踩次数、用户点喜欢次数、用户关注次数和用户私信次数作为用户的八个行为特征;(b)抽取用户一年的活跃天数作为一个时间特征,另外,根据用户的所有活动时间记录,统计用户的活跃月份数,然后加上用户最开始的活跃月份,作为修正的活跃月数特征,最后提取用户的最后活跃时间,把用户最后活跃时间与用户所有行为次数之和分别归一化后相加,作为修正的用户最后活跃时间特征,一共形成三个用户时间特征,即用户一年的活跃天数,修正的活跃月数,修正的用户最后活跃时间三个用户时间特征;步骤3、在行为特征和时间特征上进行特征筛选,具体包括以下子步骤:(a)通过L1范数进行特征筛选,使用支持向量机回归SVR模型,设置惩罚项为L1,使用的目标函数通过公式(1)进行描述,其中,表示SVR原有的成本项,w表示特征的权重,||w||1表示w的L1范数,由于L1范数非0,所以添加L1正则项之后会迫使不重要特征的权重趋于0,之后筛选掉特征权重小于预先设定的阈值1e‑5的特征;(b)通过树模型进行特征筛选,使用梯度提升树GBT训练模型,然后计算每个特征在所有树中的重要度平均值,把权重低于平均值的特征筛选掉;步骤4、使用半监督学习扩大训练集,采用SVR训练样本预测未标注数据的成长值,然后使用基于协同训练的半监督回归算法COREG来扩大训练集,具体操作是使用公式(2)来计算预测的未标注样本成长值的置信度Δxu,其中,xi表示已标注的样本,h表示用已标注的样本学习得到的SVR模型,Ω表示每一个待测样本的k个邻近结点组成的集合,这里k取7,yi表示已标注样本的真实值,H表示将未标注样本点(xu,yu)加入训练集后训练得到的SVR模型,最后取Δxu值最大的前1/8个未标注样本和其预测结果,将其当作已标注数据,来达到扩充训练样本的目的;步骤5、训练一级模型,共有如下5个一级模型:(a)使用全部的行为特征训练GBT模型;(b)使用基于树模型筛选后的用户行为特征和时间特征,训练SVR模型;(c)使用基于树模型筛选后的用户行为特征和时间特征,再结合半监督学习,训练随机森林RF回归模型;(d)使用基于树模型筛选后的用户行为特征和时间特征,再结合半监督学习,训练k邻近KNN回归模型;(e)使用基于树模型筛选后的用户行为特征和时间特征,再结合半监督学习,训练更多树回归ETR模型;步骤6、模型融合,使用stacking方法融合上述5个一级模型,将上述5个一级模型的输出结果输入GBT模型进行融合;步骤7、用户成长值的预测,利用步骤5、6得到的模型,在未标注数据上进行预测,得到未标注用户的成长值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811199944.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top