[发明专利]一种分级校验防爬虫的方法、装置、设备及存储介质在审
申请号: | 202210165100.4 | 申请日: | 2022-02-17 |
公开(公告)号: | CN114553541A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 王珏;朱亮 | 申请(专利权)人: | 苏州良医汇网络科技有限公司 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;G06F16/951;G06N3/04 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 王广浩 |
地址: | 215000 江苏省苏州市工业园区*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分级 校验 爬虫 方法 装置 设备 存储 介质 | ||
本发明涉及一种分级校验防爬虫方法、设备、装置及计算机存储介质。本发明所提供的分级校验防爬虫方法,包括:接受用户请求,统计横向时间访问次数,利用所述横向时间访问次数计算风险系数,判断所述风险系数是否在预设的校验异常范围内,若所述风险系数在预设的校验异常范围内,则根据所述风险系数进行风险值评估,判断用户请求风险分级,当所述用户请求风险分级为高风险时,进行登录拦截校验,所述用户请求风险分级为中风险时,进行验证码校验,所述用户请求风险分级为低风险时,则允许请求,本发明避免了误封正常用户ip地址,既不影响正常用户的访问,并且还防止了系统宕机的风险,解决了现有技术中单一通过并发访问频率来拦截爬虫的问题。
技术领域
本发明涉及数据处理技术领域,尤其是指一种分级校验防爬虫方法、设备、装置及计算机存储介质。
背景技术
现有的技术中,主要的防爬虫方式为统计固定时长内的访问总数来判定请求是否是爬虫,该方式单一且容易导致恶意爬虫在上限内高并发请求后台,或使用换ip的方式来并发访问爬取数据,导致服务器宕机,而依靠封禁ip地址的防爬虫方式虽然有效,但容易误伤正常用户,所以需要开发一个新的防爬虫方式,解决现有技术中单一通过并发访问频率来拦截爬虫的问题,并优化拦截效率,防止误封正常用户ip地址。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中判断爬虫方式单一,拦截效率不高的问题。
为解决上述技术问题,本发明提供了一种分级校验防爬虫方法、设备、装置及计算机存储介质,包括:
接受用户请求,获取横向时间访问数据;
利用所述横向时间访问数据统计得到横向时间访问次数;
利用所述横向时间访问次数计算风险系数;
判断所述风险系数是否在预设的校验异常范围内;
若所述风险系数在所述预设校验异常范围内,则根据所述风险系数进行风险值评估,判断用户请求风险分级,所述用户请求风险分级包括低风险、中风险、高风险;
当所述用户请求风险分级为高风险时,进行登录拦截校验,当所述用户请求风险分级为中风险时,进行验证码校验,当所述用户请求风险分级为低风险时,则允许请求,返回数据并存储至数据库;
若所述登录拦截校验或所述验证码校验失败,则判定为爬虫,封禁ip,若登录成功或所述验证码校验成功,则允许请求并将所述风险系数清零。
优选地,所述利用所述横向时间访问数据统计得到横向时间访问次数包括:
将所述横向时间访问数据存储至数据库并设置过期时间为预设时长;
利用所述横向时间访问数据的唯一标识key统计横向时间访问次数,所述横向时间访问次数为同一时间内用户并发的重复行为,所述横向时间访问数据的唯一标识key包含ip和访问端信息。
优选地,所述唯一标识key为目标url和当前时间minute的Md5加密key。
优选地,所述利用所述横向时间访问次数计算风险系数包括:
所述风险系数score计算规则为:
score=d+c/r+m
其中,c为所述用户的横向时间访问次数,r为请求阈值系数,m为根据用户行为风险预设的不同分数,d为根据两次相同访问时间间隔预设的分数,An为在每次用户操作时,采用预先训练好的RNN+SoftMax模型选取预先定义的分值数组中的一个分值,并对每次操作选取的数值进行累加得到的分数:
An=tanh(Wα×An-1+Wβ×Tn+Basic)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州良医汇网络科技有限公司,未经苏州良医汇网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210165100.4/2.html,转载请声明来源钻瓜专利网。