[发明专利]一种利用人类行为学进行反爬虫的方法在审
申请号: | 201811434529.9 | 申请日: | 2018-11-28 |
公开(公告)号: | CN109561086A | 公开(公告)日: | 2019-04-02 |
发明(设计)人: | 代波 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 四川省成都市天策商标专利事务所 51213 | 代理人: | 郭会 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 爬虫 人类行为 行为规律 业务访问 拦截 系统运行日志 业务访问日志 程序安装 动态管理 动态规则 动态生成 访问行为 建模分析 空间分布 空间特性 匹配规则 群体特征 群体用户 日志数据 时间分布 时间特性 数据建模 数据资产 行为识别 业务部署 用户信息 有效判定 运算处理 宿主机 服务器 聚合 匹配 防护 访问 分析 统一 | ||
本发明公开了一种利用人类行为学进行反爬虫的方法,包括:收集统一业务访问日志数据;根据日志数据访问行为的时间特性和空间特性进行数据建模分析,得到业务访问行为规律的时间分布与空间分布的关系图;个体和群体特征计算以及动态生成规则;匹配规则识别爬虫;将反爬虫拦截程序安装在业务部署服务器中,接收爬虫用户信息,通过动态管理宿主机的IPTables信息,拦截爬虫用户。本发明通过建模分析了业务访问行为规律,得到个体和群体用户数据,将系统运行日志信息做聚合运算处理,通过动态规则匹配,可有效判定访问来源是否是爬虫行为,大大提高爬虫行为识别的准确性并加以防护,可以更好的保护数据资产。
技术领域
本发明涉及网络安全技术领域,具体的说,是一种利用人类行为学进行反爬虫的方法。
背景技术
随着网络的迅速发展,万维网成为大量信息的载体,搜索引擎通用性搜索引擎也存在着一定的局限性,因此产生了爬虫技术,但是作为信息提供方,爬虫技术的兴起,是一个灾难,会对公司造成诸多不利,如:A、爬虫产生了大量的虚假用户,占总PV比例较高,增加了运营成本;B、公司资源被批量抓走,丧失竞争力,数据安全性也得不到保障。反爬虫技术就这么诞生了,现如今,的反爬虫技术大致包含以下四类:(1)通过User-Agent来控制,建立user-agent白名单,只有属于正常范围的user-agent才能够正常访问;(2)通过IP限制来反爬虫,如固定的ip在短暂的时间内,快速大量的访问一个网站,则识别为爬虫;(3)通过JS脚本来防止爬虫,爬虫终归只是一段程序,它并不能像人一样去应对各种变化,如验证码,滑动解锁,图像验证等;(4)通过robots.txt来限制爬虫。经过大量的实践运用,现阶段,反爬虫技术已经得到了一定的发展,识别爬虫之后的限制和拦截手段已经日渐完善。然而,爬虫手段也是日新月异,爬虫行为变得越来越难以捕捉,通过常规手段识别爬虫行为的命中率越来越低,反爬虫瓶颈落在了如何准确而有效的识别爬虫行为上。为了解决这个问题,亟需一种能够有效区分真实用户与虚假用户,找到爬虫目标的方法。
发明内容
本发明的目的在于提供一种利用人类行为学进行反爬虫的方法,用于解决现有技术中不能有效识别爬虫行为,不能对虚假用户进行准确拦截的问题。
本发明通过下述技术方案解决上述问题:
一种利用人类行为学进行反爬虫的方法,包括:
步骤A:收集统一业务访问日志数据;
步骤B:根据日志数据访问行为的时间特性和空间特性进行数据建模分析,得到业务访问行为规律的时间分布与空间分布的关系图;
步骤C:个体和群体特征计算以及动态生成规则;
步骤D:匹配规则识别爬虫;
步骤E:将反爬虫拦截程序安装在业务部署服务器中,接收爬虫用户信息,通过动态管理宿主机的IPTables信息,拦截爬虫用户。
深入理解人类的互联网行为,人类行为的时间特性和空间特性实证分析和建模,建模模型可以是下面的一种或者多种:经典任务队列模型;基于人类活动的记忆、兴趣和节律等解释模型;基于社会交互的人类动力学模型;偏好返回模型;信息熵优化模型;周期性随机游走模型;根据日志信息访问行为的时间特性和空间特性的进行建模分析,得到业务访问行为规律的时间分布与空间分布之间的关系等,得到泊松分布图,研究周期与波动;在新日志的匹配过程中,使用JStorm流式处理框架,每一条日志快速计算匹配规则,快速识别爬虫行为并上报。反爬虫拦截程序安装在业务部署服务器中,接收爬虫用户信息,通过动态管理宿主机的IPTables信息,实现爬虫用户的拦截,保护数据资产。
进一步地,所述步骤C具体包括:
步骤C1:由建模得到的数据,计算出业务系统的访问行为特征;
步骤C2:通过聚合运算得到业务的群体访问特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811434529.9/2.html,转载请声明来源钻瓜专利网。