[发明专利]基于特征筛选与半监督学习的用户成长性画像构建方法有效
申请号: | 201811199944.0 | 申请日: | 2018-10-16 |
公开(公告)号: | CN109359137B | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 王健;钱凌飞;董哲瑾;林鸿飞 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06K9/62 |
代理公司: | 大连星海专利事务所有限公司 21208 | 代理人: | 王树本;徐雪莲 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 筛选 监督 学习 用户 成长 画像 构建 方法 | ||
本发明涉及一种用户成长性画像构建方法,一种基于特征筛选与半监督学习的用户成长性画像构建方法,包括以下步骤:(1)对原始用户数据进行预处理,(2)根据用户的行为数据,提取用户的行为特征和时间特征,(3)在行为特征和时间特征上进行特征筛选,(4)使用半监督学习扩大训练集,(5)训练一级模型,(6)模型融合,(7)用户成长值的预测。本发明除了关注用户的行为特征,还关注了用户的时间特征,并且使用特征筛选的方法选出其中区分度明显的特征,结合半监督方法扩充训练集,最后使用模型融合的方法,提高模型最终的准确率和稳定性。
技术领域
本发明涉及一种用户成长性画像构建方法,更具体地说,涉及一种基于特征筛选与半监督学习的用户成长性画像构建方法。
背景技术
随着互联网行业发展的越来越成熟,现在各大互联网公司都开始加大力度进行用户资源的争夺,而其中重要的一环就是用户的精准营销服务。另一方面,用户画像在大数据的基础上,为每个用户贴上标签,因此可以看出,用户画像是实现精准营销的一大助力。而用户的成长性画像又是用户画像中十分重要的一环。用户的成长值反映了用在社交媒体平台,如博客、微博等的潜在活跃力。如果可以预测某一话题领域的用户成长值,那么将有助于前期产品的设计。用户的成长值预测对于公司产品的设计,用户运营,精准营销有很大助力,也因此成为当今国内外研究的重点方向。
目前,对于用户成长值预测的研究主要是对特征工程的探索。特征工程主要包括用户的一些基本特征,包括被关注数,被转发数,被提及数等。这些基本特征都被验证能较好地对用户进行分类从而实现精准营销。此外,还可以根据这些基本特征衍生出新的特征,比如说将关注数,被转发次数和被提及次数计算成排名来形成新的特征。除了这些基本特征,还有一些用户的行为特征,比如说登录次数、关注转发数量、点赞或点踩数量等,也可以有效地反映出用户的活跃度等属性。
目前的研究在提取用户特征时更多关注的是用户的行为特征,并且行为特征以‘次数’为主要挖掘对象。而在本发明中,不仅以‘行为次数’为主提取用户行为特征,还挖掘了时间特征。时间特征可以更全面地反映用户的回访率和用户粘性。相比于多变的行为特征,时间特征更稳定也更有利于模型的稳定性。
在采用监督学习的用户成长值预测中普遍存在的问题是标注数据不足,标注数据往往需要大量的专家知识,耗费大量的时间才能完成,所以高质量的标注数据往往十分的珍贵,大量的标注数据通常意味着很大的成本。因此本发明采用了半监督学习的方法来解决标注数据不足的问题。
发明内容
为了克服现有技术中存在的不足,本发明目的是提供一种基于特征筛选与半监督学习的用户成长性画像构建方法。该方法除了关注用户的行为特征,还关注了用户的时间特征,并且使用特征筛选的方法选出其中区分度明显的特征,结合半监督方法扩充训练集,最后使用模型融合的方法,提高模型最终的准确率和稳定性。
为了实现上述发明目的,解决已有技术中所存在的问题,本发明采取的技术方案是:一种基于特征筛选与半监督学习的用户成长性画像构建方法,包括以下步骤:
步骤1、对原始用户数据进行预处理,选择2017全国社会媒体处理大会SMPCUP评测任务CSDN用户画像数据集,并对其进行预处理,具体包括以下子步骤:
(a)把9个文件中的用户数据,包括用户浏览记录、用户发文记录、用户评论记录、用户点赞记录、用户点踩记录、用户点喜欢记录、用户关注记录、用户私信记录以及标注的用户成长值,通过用户ID进行整合;
(b)根据用户的各个行为的时间记录,统计用户各个行为的次数,然后对整合、统计之后的用户数据表的空值进行填充,其中,行为次数的空值使用0填充,时间记录的空值使用-1填充;
步骤2、根据用户的行为数据,提取用户的行为特征和时间特征,具体包括以下子步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811199944.0/2.html,转载请声明来源钻瓜专利网。