[发明专利]识别网站的潜在恶意用户的方法和装置有效

申请号：	201610355383.3	申请日：	2016-05-26
公开（公告）号：	CN107438050B	公开（公告）日：	2019-03-01
发明（设计）人：	谢贵霞;肖勃飞;罗尚勇;袁和应;梅尚健	申请（专利权）人：	北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
主分类号：	H04L29/06	分类号：	H04L29/06
代理公司：	中科专利商标代理有限责任公司 11021	代理人：	吕雁葭
地址：	100080 北京市海淀区杏石口路6***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	识别网站潜在恶意用户方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种识别网站的潜在恶意用户的方法，包括：

基于用户基础数据和业务数据，使用Fast Unfolding算法生成社区网络图；

从所述社区网络图获取社区信息，所述社区信息包括社区网络图的社区属性和图属性；

基于用户基础数据、业务数据和所属社区的社区信息，生成宽表，基于宽表生成衍生字段，所述衍生字段是能够用于判断用户是否为恶意用户的字段；

将被选择用于训练的用户的特征数据作为训练数据，使用随机森林算法进行建模，得到随机森林模型，其中特征数据包括用户的基本信息、用户的社区信息、以及相应衍生字段；以及

使用随机森林模型进行恶意用户识别。

2.根据权利要求1所述的方法，其中，用户基础数据包括用户基本信息和注册信息，用户业务数据包括用户在该网站进行业务活动的数据。

3.根据权利要求1所述的方法，其中，生成社区网络图包括：

基于用户基础数据和业务数据，根据用户间的关系生成边数据，具有关系的两个用户之间有一条边，边的源顶点ID和目标顶点ID分别为有关系的两个用户的ID号，边的属性信息包括用户关系值和/或用户关系类型；

使用边数据生成包括边和顶点的初始图；

对初始图运行Fast Unfolding算法，生成社区网络图并计算各社区的模块度值。

4.根据权利要求1所述的方法，其中：

社区属性包括以下三个属性：用户所属社区、用户所属社区用户数、用户所属社区模块度；以及

图属性包括用户所在社区的图的度属性。

5.根据权利要求1所述的方法，其中，所述衍生字段包括以下任意一个或多个：使用相同下单ip对相同商品下单的用户数；同一天使用相同下单ip和相同收货地的下单量；用户所在社区的度的总和。

6.根据权利要求1所述的方法，其中，使用随机森林算法进行建模包括：

设置随机森林算法的目标变量、特征数据及算法参数，并生成Pipeline对象，所述Pipeline是spark框架提供的用于构建机器学习工作流应用的库，目标变量是一个标识用户是否是恶意用户的字段，算法参数包括以下的任意一个或多个：树的最大深度、特征的最大分箱数、每个叶节点的最小实例数、最小信息增益、特征子集采样策略、树的棵数；以及

使用训练数据作为入参并使用训练数据训练Pipeline对象，得到随机森林模型。

7.根据权利要求1所述的方法，其中，使用随机森林模型进行恶意用户识别包括：

加载待识别用户及其相应的特征数据；以及

使用随机森林模型基于特征数据进行恶意用户识别并输出识别结果。

8.一种识别网站的潜在恶意用户的装置，包括：

用于基于用户基础数据和业务数据，使用Fast Unfolding算法生成社区网络图的装置；

用于从所述社区网络图获取社区信息的装置，所述社区信息包括社区网络图的社区属性和图属性；

用于基于用户基础数据、业务数据和所属社区的社区信息，生成宽表，基于宽表生成衍生字段的装置，所述衍生字段是能够用于判断用户是否为恶意用户的字段；

用于将被选择用于训练的用户的特征数据作为训练数据，使用随机森林算法进行建模，得到随机森林模型的装置，其中特征数据包括用户的基本信息、用户的社区信息、以及相应衍生字段；以及

用于使用随机森林模型进行恶意用户识别的装置。

9.根据权利要求8所述的装置，其中，用户基础数据包括用户基本信息和注册信息，用户业务数据包括用户在该网站进行业务活动的数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。