[发明专利]识别网站的潜在恶意用户的方法和装置有效
申请号: | 201610355383.3 | 申请日: | 2016-05-26 |
公开(公告)号: | CN107438050B | 公开(公告)日: | 2019-03-01 |
发明(设计)人: | 谢贵霞;肖勃飞;罗尚勇;袁和应;梅尚健 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 吕雁葭 |
地址: | 100080 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 网站 潜在 恶意 用户 方法 系统 | ||
1.一种识别网站的潜在恶意用户的方法,包括:
基于用户基础数据和业务数据,使用Fast Unfolding算法生成社区网络图;
从所述社区网络图获取社区信息,所述社区信息包括社区网络图的社区属性和图属性;
基于用户基础数据、业务数据和所属社区的社区信息,生成宽表,基于宽表生成衍生字段,所述衍生字段是能够用于判断用户是否为恶意用户的字段;
将被选择用于训练的用户的特征数据作为训练数据,使用随机森林算法进行建模,得到随机森林模型,其中特征数据包括用户的基本信息、用户的社区信息、以及相应衍生字段;以及
使用随机森林模型进行恶意用户识别。
2.根据权利要求1所述的方法,其中,用户基础数据包括用户基本信息和注册信息,用户业务数据包括用户在该网站进行业务活动的数据。
3.根据权利要求1所述的方法,其中,生成社区网络图包括:
基于用户基础数据和业务数据,根据用户间的关系生成边数据,具有关系的两个用户之间有一条边,边的源顶点ID和目标顶点ID分别为有关系的两个用户的ID号,边的属性信息包括用户关系值和/或用户关系类型;
使用边数据生成包括边和顶点的初始图;
对初始图运行Fast Unfolding算法,生成社区网络图并计算各社区的模块度值。
4.根据权利要求1所述的方法,其中:
社区属性包括以下三个属性:用户所属社区、用户所属社区用户数、用户所属社区模块度;以及
图属性包括用户所在社区的图的度属性。
5.根据权利要求1所述的方法,其中,所述衍生字段包括以下任意一个或多个:使用相同下单ip对相同商品下单的用户数;同一天使用相同下单ip和相同收货地的下单量;用户所在社区的度的总和。
6.根据权利要求1所述的方法,其中,使用随机森林算法进行建模包括:
设置随机森林算法的目标变量、特征数据及算法参数,并生成Pipeline对象,所述Pipeline是spark框架提供的用于构建机器学习工作流应用的库,目标变量是一个标识用户是否是恶意用户的字段,算法参数包括以下的任意一个或多个:树的最大深度、特征的最大分箱数、每个叶节点的最小实例数、最小信息增益、特征子集采样策略、树的棵数;以及
使用训练数据作为入参并使用训练数据训练Pipeline对象,得到随机森林模型。
7.根据权利要求1所述的方法,其中,使用随机森林模型进行恶意用户识别包括:
加载待识别用户及其相应的特征数据;以及
使用随机森林模型基于特征数据进行恶意用户识别并输出识别结果。
8.一种识别网站的潜在恶意用户的装置,包括:
用于基于用户基础数据和业务数据,使用Fast Unfolding算法生成社区网络图的装置;
用于从所述社区网络图获取社区信息的装置,所述社区信息包括社区网络图的社区属性和图属性;
用于基于用户基础数据、业务数据和所属社区的社区信息,生成宽表,基于宽表生成衍生字段的装置,所述衍生字段是能够用于判断用户是否为恶意用户的字段;
用于将被选择用于训练的用户的特征数据作为训练数据,使用随机森林算法进行建模,得到随机森林模型的装置,其中特征数据包括用户的基本信息、用户的社区信息、以及相应衍生字段;以及
用于使用随机森林模型进行恶意用户识别的装置。
9.根据权利要求8所述的装置,其中,用户基础数据包括用户基本信息和注册信息,用户业务数据包括用户在该网站进行业务活动的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610355383.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种恶意登录识别方法及装置
- 下一篇:吊灯(1114)