[发明专利]识别基于DBSCAN模型的非正常批量购票行为的方法在审
申请号: | 201611019839.5 | 申请日: | 2016-11-18 |
公开(公告)号: | CN106657007A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 曹杰;冯雨晖;宿晓坤;杨睿;李学超 | 申请(专利权)人: | 北京红马传媒文化发展有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L12/26;G06Q30/06 |
代理公司: | 北京天奇智新知识产权代理有限公司11340 | 代理人: | 杨文录 |
地址: | 100027 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 基于 dbscan 模型 正常 批量 购票 行为 方法 | ||
技术领域
本发明涉及异常行为识别技术领域,尤其涉及一种识别基于DBSCAN模型的非正常批量购票行为的方法。
背景技术
现场演出票由于价钱高资源少,会引来大量的黄牛前来刷票(网络购票异常行为),然后高价倒卖,黄牛的出现,损害用户的利益,极大的降低了网上购票的用户体验和平台的用户粘性。黄牛为了抢票,经常会通过机器批量注册很多账户,还会通过多个账户进行高频,大量的访问,以最快的速度下单占有资源。所以黄牛一般会通过程序进行刷票。目前识别黄牛大都是通过统计用户的访问来源,访问频次,访问周期,从中找出异于大多数用户的访问异常,从而判定为黄牛。建立黄牛黑名单。黄牛的定义并不一定是一个真正的用户,也可以是一个资源,黄牛使用该资源进行刷票,将此资源也纳入到黄牛黑名单中,因而,会有IP黑名单,Cookie黑名单,账号黑名单等。
当前的识别黄牛的方式主要通过监控访问日志,通过解析,计算日志中的IP,Cookie,设备,账号的访问频次,访问时间间隔,来识别异常访问,这在一定程度上能够防止黄牛。但是应用上述技术的时候,发明人发现,单一维度的识别,不能够唯一判别用户设备,容易误杀正常用户,比如IP,黄牛和正常用户在同一个楼或是小区,用同一个出口IP,如果使用IP识别,容易误杀正常用户。第二,频次识别只能是在一定程度上识别黄牛,当黄牛拉大访问间隔,降低访问频次,就不好判定。而且黄牛会模拟不同的客户端,多渠道的进行刷票。黄牛为了快速抢票,会走捷径,不会像正常用户操作,因而其行为轨迹也缺失关键步骤,所以当前基于流量访问异常的识别方法,已不满足识别黄牛的需要。
发明内容
为了解决上述技术问题,本发明提供了一种识别基于DBSCAN模型的非正常批量购票行为的方法,可以将网络批量购票异常行为特征从正常购票行为特征中识别出来,进行隔离,并降低误识别概率,使资源的分配更具合理性和公平性。
本发明提供了一种识别基于DBSCAN模型的非正常批量购票行为的方法,包括:
监测预定时间段内的注册数量高于参考时间段的注册数量的识别阈值后,获取基于密度聚类算法扫描所述预识别时间段内的所有注册行为后标记的至少一个高度集中的注册账户簇;
将所述标记的至少一个高度集中的注册账户簇的网络购票行为记录中的用户IP、Cookie和访问代理环境Agent哈希化为一个全局唯一的编码字符串IP+Cookie+Agent,形成唯一用户标识;
提取所述用户标识的历史网络购票行为记录和实时网络购票行为记录中的网络购票行为属性;
识别所述网络购票行为属性中的异常行为属性的用户IP,将所述异常行为属性的用户IP存入黑名单进行隔离。
进一步的,所述将网络购票行为记录中的用户IP、Cookie和访问代理环境Agent哈希化为一个全局唯一的编码字符串IP+Cookie+Agent,形成唯一用户标识,包括:
通过哈希函数将网络购票行为记录中的用户IP、Cookie和访问代理环境Agent哈希化为一个全局唯一的编码字符串IP+Cookie+Agent,形成唯一用户标识。
进一步的,所述识别所述网络购票行为属性中的异常行为属性的用户IP,将所述异常行为属性的用户IP存入黑名单进行隔离,包括:
识别所述网络购票行为属性中的频次阀值和黑名单,所述频次阀值包括但不限于:不同IP访问频次、每个IP的访问不同url的频次、IP+cookie+agent访问频次或IP+cookie+agent访问不同url的频次中的一种或多种;
通过所述频次阀值和黑名单识别出异常行为的用户IP,将所述识别出的用户IP存入黑名单进行隔离。
进一步的,所述提取所述用户标识的历史网络购票行为记录和实时网络购票行为记录中的网络购票行为属性,包括:
提取所述用户标识中的历史行为记录中的历史频次阀值和历史黑名单;
提取所述用户标识中的历史交易行为记录中存在潜在的购买行为异常阀值和超出购买行为异常阀值的异常注册用户的黑名单;
实时采集用户标识的当前访问行为记录中的当前用户访问频次和路径。
进一步的,所述提取所述用户标识中的历史行为记录中的历史频次阀值,包括以下步骤:
将历史行为记录中的日志文件内容载入到大数据数仓Hive中,在Hive中建立日志文件格式化数据表,将日志文件内容格式化到数据表中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京红马传媒文化发展有限公司,未经北京红马传媒文化发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611019839.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种软件信息的安全防护方法和装置
- 下一篇:一种用户上网行为研究方法