[发明专利]一种基于图网络随机游走的风险用户预测方法在审
申请号: | 202010966200.8 | 申请日: | 2020-09-15 |
公开(公告)号: | CN112131569A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 易钰奇;程帆;张冬梅 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F21/55 | 分类号: | G06F21/55;G06F16/2458;G06K9/62 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 杨宏泰 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网络 随机 游走 风险 用户 预测 方法 | ||
本发明涉及一种基于图网络随机游走的风险用户预测方法,包括以下步骤:1)获取包含图网络化数据作为原始数据集;2)对原始数据集进行预处理,并构建图网络;3)对预处理后的数据通过基于随机游走的聚类算法获得节点对应的概率,即用户的风险得分;4)整合聚类算法得到的用户节点概率,输出最后的风险用户预测结果。与现有技术相比,本发明具有更好的可扩展性,无需特征工程,效果良好等优点。
技术领域
本发明涉及数据挖掘技术领域,尤其是涉及一种基于图网络随机游走的风险用户预测方法。
背景技术
随着信息技术的日趋进步,数据的规模越来越大,数据之间交互所形成的数据网络越来越复杂,这些情况给图网络上的相关的数据挖掘工作带来了很大的挑战,在预测风险用户的需求之中,往往需要大量的,复杂的,数据筛选和挖掘工作,部分公司使用专业人员来进行数据分析,但是这样带来的是极高的人力成本。
现有单机平台上的部分算法模型虽然取得了有效的成果,但是它们存在扩展性的难题,面对海量的数据处理能力偏低,因此需要一种基于图网络随机游走的风险用户预测方法来有效的规避这个问题,使其能够无需专业人员对所有数据进行逐条分析,也能够较好的支持系统的横向扩展从而解决海量数据带来的难题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于图网络随机游走的风险用户预测方法。
本发明的目的可以通过以下技术方案来实现:
一种基于图网络随机游走的风险用户预测方法,包括以下步骤:
1)获取包含图网络化数据作为原始数据集;
2)对原始数据集进行预处理,并构建图网络;
3)对预处理后的数据通过基于随机游走的聚类算法获得节点对应的概率,即用户的风险得分;
4)整合聚类算法得到的用户节点概率,输出最后的风险用户预测结果。
所述的包含图网络形式的数据集包括公开的比赛数据集、大学公开的数据集以及企业公开的数据集,所述的公开的比赛数据集包括Kaggle和KDD竞赛网站公开的数据集,所述的大学公开的数据集为Stanford大学开源的数据集网站上公开的数据集,所述的企业公开的数据集包括微软和雅虎企业公开的数据集。
所述的步骤2)具体包括以下步骤:
21)从原始数据中获取特征数据,同时过滤掉噪声数据,即权重过低的边数据;
22)采用关系预测模型对可能缺失的数据进行补充;
23)对图网络中节点编号进行统一编码;
24)归一化图网络中边的权重。
所述的步骤21)中,特征数据的类型包括数据的图节点特征、边的权重、方向特征以及作为后续随机游走初始节点而选择的风险节点。
所述的图节点特征为用户的标签数据,表示用户的风险表现情况得分,其取值为0或1,对应有、无风险,所述的边表示用户之间的关系,包括通话关系、关注关系和社交好友关系,其权重表示用户之间关系的紧密程度。
所述的步骤22)中,对可能缺失的数据进行补充具体包括:
对于数据:使用线性模型进行线性插值补充;
对于类别特征:选取该类别出现次数最多的特征值作为缺失值进行补充。
所述的步骤3)中,随机游走的规则具体为:
图网络中的所有有向边作为无向边对待,对于节点之间存在多条边的情况,则将其合并为一条边,合并后该边的权重为多条边的平均值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010966200.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无缝钢管的环缝对接焊方法
- 下一篇:层析柱装置及层析柱装柱方法