[发明专利]一种基于web日志的网站反爬虫方法在审
申请号: | 202111133369.6 | 申请日: | 2021-09-27 |
公开(公告)号: | CN113868651A | 公开(公告)日: | 2021-12-31 |
发明(设计)人: | 肖军弼;魏娇娇 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 web 日志 网站 爬虫 方法 | ||
1.一种基于web日志的网站反爬虫方法,其特征及具体步骤如下:
S1,从日志服务器中获取web日志,对web日志进行收集以及预处理,清除噪声数据,将不合规范的数据进行数据过滤、格式转化及规整,并将清洗后的日志数据存储到关系数据库中。
S2,从web日志中提取出观测序列,结合HMM算法训练爬虫检测模型。
S3,利用似然函数计算出爬虫序列在HMM算法下的平均极大似然估计值,确定出爬虫的平均极大似然估计值区间。
S4,对于待检测的观测序列,计算其平均极大似然估计值,根据网络爬虫程序的平均极大似然估计值区间判断是否为爬虫程序。
S5,基于卷积神经网络设计生成防破解的图像类验证码,利用风格化迁移技术将捕捉原始内容图像的风格特征与图像的内容特征,并通过训练卷积神经网络将其转移到目标图像之上,完成图像重建,通过多次迭代逐步优化图像,即可生成破解难度大的验证码,嵌入到容易被网络爬虫程序攻击的页面,以达到反爬虫的目的。
2.根据权利要求1所述的一种基于web日志的网站反爬虫方法,其特征在于,对于步骤S1,本发明首先对获取到的web日志进行预处理。预处理内容包括对web日志内容的缺失值处理以及异常值处理,产出高质量的数据,提高模型的检测效率。同时,要对清洗后的web日志数据进行特征降维操作,进行特征抽取和特征选择,保留关键特征,舍弃与爬虫程序分析无关的特征,以此提高网络爬虫程序检测的效率。具体操作如下:
(1)缺失值处理
数据缺失问题可能会造成系统中的不确定性成分的更难把握,还会造成模型训练过程陷入混乱,进而导致不可靠输出,造成输出结果的误判。如果没有高质量数据,就没有高质量反爬模型,所以缺失值的问题不容忽视。当缺失占的比例较小时,可直接对有缺失的记录进行手工处理或直接丢弃。但在实际的数据中,缺失数据占有相当大的比重。若进行手工处理,效率会非常低;若直接舍弃缺失的记录,则会造成大量信息的丢失,使不完全的观测数据与完整的观测数据之间产生较大的差异,针对这个问题采取的方法是对缺失值采取进行补0、众数、填充默认值的处理方法。
(2)异常值处理
由于实际环境的复杂性,可能会导致特征数据会出现异常值,所以需要把该特征值与对应的门限值作比较,剔除相对偏差较大的异常值,尽可能的保证数据的有效性,尽量减少对爬虫检测模型的影响。异常值的处理与缺失值类似,只是需要将特征的取值范围提前界定,以判断此采样值是否正常,从而对异常值采取进行补0、填充默认值或者丢弃的处理方法。
(3)特征降维
特征维度太低可能会导致无法挖掘出数据集里面有用的信息,但特征维度太高,也会造成维度复杂错乱,影响算法的计算速度,也使得重要的特征不能在模型中得到有效的表达,影响模型效果。所以综合模型的精度和速度,要对维度过高的特征进行降维处理,对web日志进行特征抽取和特征选择,保留关键特征,舍弃与爬虫程序分析无关的特征,以此寻求检测精度高的检测模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111133369.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种红茶发酵设备及工艺
- 下一篇:一种提高纤维面料强度的生产工艺