[发明专利]一种基于网站流量日志数据与优化谱聚类算法的恶意爬虫检测方法有效
申请号: | 202010636291.9 | 申请日: | 2020-07-04 |
公开(公告)号: | CN111831881B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 周亚东;岳天一;刘晓明;沈超 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F18/2337 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网站 流量 日志 数据 优化 谱聚类 算法 恶意 爬虫 检测 方法 | ||
一种基于网站流量日志数据与优化谱聚类算法的恶意爬虫检测方法,包括:预处理日志数据,过滤非页面请求,从请求记录中筛选相关字段用于爬虫检测;为每个cookie生成页面请求序列,基于页面请求序列,计算任意两cookie间行为相似度;构建以cookie为节点的完全图,任意两cookie节点间边的权重等于cookie间行为相似度;使用优化谱聚类算法对图进行社区划分;设计社区特征,并设置阈值进行爬虫社区识别;使用核密度估计算法对剩余未发现的爬虫cookie进行挖掘。本发明能够为网站监控爬虫、制定拦截规则、保护公司数据财产与用户隐私等提供技术支持;本发明基于易于获取的流量日志数据实现爬虫检测,具有较高的实际应用价值。
技术领域
本发明属于数据挖掘技术领域,涉及网络数据保护,特别涉及一种基于网站流量日志数据与优化谱聚类算法的恶意爬虫检测方法。
背景技术
随着信息技术的发展,互联网在生产生活中扮演极其重要的角色,与此同时,互联网生态受到恶意爬虫的威胁也在日益增长,有的恶意爬虫通过爬取对手电商网站中所有商品的信息来实现恶意竞价,有的恶意爬虫非法爬取网站注册用户的隐私信息,还有的恶意爬虫抢占公共资源,例如在12306网站上抢购火车票等,这些恶意爬虫在非法获取网站数据的同时也占用了网站服务器大量的计算资源,严重影响了合法用户的网站访问体验,因此有效识别恶意爬虫,并对其进行封禁至关重要。
基于数据挖掘,通过分析网站流量日志数据进行爬虫识别在工业界被广泛采用,传统的爬虫识别主要基于特征工程或策略,前者为cookie或其他识别对象设计特征,基于专家经验,人工标记爬虫与非爬虫数据,得到训练集,训练分类器,用分类器对未知cookie进行分类,后者基于专家经验设计多种规则,当识别对象违反规则的程度超过阈值时,则判定为爬虫。这些技术对专家经验依赖过多,随着爬虫更新换代的速度加快,以及不同组织开发出的爬虫具有较大的差异性,反爬效果逐渐有限。
发明内容
为了克服上述传统反爬技术的缺点,本发明的目的在于提供一种基于网站流量日志数据与优化谱聚类算法的恶意爬虫检测方法,以cookie作为识别对象,通过计算页面请求序列的相似度来得到cookie间行为相似度,进而建立以cookie为节点,相似度为边权重的全连接图,使用经过优化的谱聚类社区划分算法对图进行社区划分,提取社区特征,通过设置阈值实现对爬虫社区以及爬虫cookie的识别,最后基于cookie键鼠特征以及核密度估计算法,在未知cookie中进一步挖掘爬虫cookie。本发明通过识别爬虫团伙的方法来实现爬虫检测,抓住了同一团伙内的爬虫行为相似这一不变性,能够有效应对高级爬虫更新换代快,不同组织爬虫行为差异性大等挑战,并且本发明为无监督技术,不需要大量的标记数据,极大地节省安全团队的人力与物力,具有较高的实用价值。
为了实现上述目的,本发明采用的技术方案是:
一种基于网站流量日志数据与优化谱聚类算法的恶意爬虫检测方法,包括以下步骤:
步骤1,从网站流量日志数据中提取客户端发送请求记录中包括时间戳、请求文件类型、cookie、键鼠行为在内的字段,基于请求文件类型对全部日志数据进行过滤,只保留针对页面文件的请求记录。其中键鼠行为字段包括:键盘事件计数值字段、两次key down时间间隔均值字段、mouse down和mouse up事件间隔均值字段、鼠标点击事件计数值字段、输入事件次数值字段、用户页面的停留时长字段。
步骤2,将针对页面文件的每一条请求记录映射为一个元素,针对相同页面文件的请求记录映射为相同元素,对于每个cookie,将其相关的页面请求记录按时间升序排序,并映射得到页面请求序列,基于页面请求序列计算任意两cookie间行为相似度,计算方法具体为:
步骤2.1,获取两个cookie的页面请求序列S1和S2;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010636291.9/2.html,转载请声明来源钻瓜专利网。