[发明专利]一种基于web日志的网站反爬虫方法在审
申请号: | 202111133369.6 | 申请日: | 2021-09-27 |
公开(公告)号: | CN113868651A | 公开(公告)日: | 2021-12-31 |
发明(设计)人: | 肖军弼;魏娇娇 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 web 日志 网站 爬虫 方法 | ||
本发明公开一种基于web日志的网站反爬虫方法,该方法包含:首先获取web日志进行预处理,包括清除噪声数据、数据过滤等,并将其存储到关系数据库中;从web日志中提取观测序列作为HMM算法的训练集,得出爬虫检测模型;利用似然函数计算爬虫序列在HMM算法下的平均极大似然估计值,确定出爬虫的平均极大似然估计值区间;计算待检测序列的平均极大似然估计值,结合上一步获得的平均极大似然估计值区间判断待检序列是否为爬虫;最后,利用风格化迁移技术捕捉原始图像的风格与内容特征,并通过训练卷积神经网络将其转移到目标图像之上,完成图像重建,通过多次优化图像,生成难破解的验证码,应用于易被爬虫程序攻击的网站,以达到反爬虫的目的。
技术领域
本发明属于网络安全技术领域,涉及一种基于web日志的网站反爬虫方法。
背景技术
随着互联网应用的发展,爬虫技术越来越普及,网络爬虫是一种自动化浏览网页和抓取网页数据的程序,通过网络爬虫人们可以按需抓取、保存数据。爬虫技术也是多种网络应用的关键技术,如搜索引擎依赖于爬虫获取网页中的信息。但是大量网络爬虫的产生会带来更多弊端,一些恶意爬虫也带来了多重隐患,甚至造成了不可忽视的损失,产生大量占用服务器资源、触碰用户隐私,窃取商业信息,泄露隐私数据,互联网带宽被过度占用,导致正常用户访问缓慢,甚至出现网站不能访问的现象等负面问题。因此反爬虫方法研究成为网站管理者的一项重要研究内容。
在网络运行过程中,会产生大量的网络日志来记录网络中发生的所有行为。这些网络日志包含了大量有用的信息,如客户端地址、访问时间、请求方式、浏览器信息等,可供网络安全专家发现网络爬虫程序,进而对爬虫程序进行阻断。反爬虫方法研究首先是结合卷积神经网络理论建立爬虫程序检测模型,从而发现爬虫行为,然后再采取反爬虫的手段将爬虫行为进行阻断。
目前,反爬虫技术大致包括:
1.前端反爬虫技术:只是提高了恶意爬虫拿到真实数据的难度,并不能起到禁止爬虫的作用。比如截图、文字识别技术的爬虫无法防御。
2.IP检测:通过IP风险库判断是恶意IP进行黑名单,IP策略无法有效防御动态切换IP的场景,并且IP防御误封率较高。
3.接口频率控制:爬虫常常通过快速的访问某一些页面,获取其中的关键信息。通过对页面设置访问频率基线,可以对此类爬虫起到一定的防御作用。但是,几乎所有业务接口的访问量都是随着时间变化的,如何设定访问频率阈值,这将是一项巨大的挑战。
4.反爬虫蜜罐:威胁情报一方面可以依靠反爬虫蜜罐,一个设置巧妙的蜜罐会极大的提升反爬虫系统的效率和准确性,反之,不仅起不到什么作用甚至可能会影响正常用户。
5.风险拦截技术:生成验证码、短信验证、针对恶意用户制造假数据等。验证码已经被证明是一种有效的用于抵御自动脚本恶意攻击的方法,目前生成验证码技术,如果设计的验证码复杂度不够,那么极容易被恶意攻击者破解,但是复杂度过高的验证码在提升了安全性的同时,用户使用也更复杂,通过验证耗时更多。
发明内容
本发明为克服上述缺陷,提出了一种基于web日志的网站反爬虫方法,本发明具体的实施步骤如下:
S1,从日志服务器中获取web日志,对web日志进行收集以及预处理,清除噪声数据,将不合规范的数据进行数据过滤、格式转化及规整,并将清洗后的日志数据存储到关系数据库中。
S2,从web日志中提取出观测序列,结合HMM算法训练爬虫检测模型。
S3,利用似然函数计算出爬虫序列在HMM算法下的平均极大似然估计值,确定出爬虫的平均极大似然估计值区间。
S4,对于待检测的观测序列,计算其平均极大似然估计值,根据网络爬虫程序的平均极大似然估计值区间判断是否为爬虫程序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111133369.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种红茶发酵设备及工艺
- 下一篇:一种提高纤维面料强度的生产工艺