[发明专利]一种基于行为特征的半自动反爬系统在审
申请号: | 202010674637.4 | 申请日: | 2020-07-14 |
公开(公告)号: | CN111914255A | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 陈芝茂;同锋;蔡月月 | 申请(专利权)人: | 北京人人云图信息技术有限公司 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;H04L29/06;G06F16/25 |
代理公司: | 北京航智知识产权代理事务所(普通合伙) 11668 | 代理人: | 陈磊;张桢 |
地址: | 100191 北京市海淀区北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 行为 特征 半自动 系统 | ||
1.一种基于行为特征的半自动反爬系统,其特征在于,包括ETL处理单元、行为分析及管理单元、日志分析引擎和请求防护处理单元;
所述ELT处理单元用于对用户端发起请求的request信息进行ETL处理,将得到的UID和URI数据传输至所述行为分析及管理单元、所述日志分析引擎和所述请求防护处理单元;
所述行为分析及管理单元用于:以接收到的UID为主键聚合,对接收到的URI数据进行去重处理,生成UID的行为集合、行为集合统计指标和与业务场景相关的统计指标;以所述行为集合为主键聚合,生成分析视图,以判断所述行为集合是否为威胁行为集合;若判断所述行为集合为威胁行为集合,则将威胁行为集合记录到威胁行为数据库,并跟踪所述请求防护处理单元的处理结果,用于生成历史处理指标;
所述行为分析及管理单元的最小输入、输出和内部处理逻辑为:业务专家或策略专家可使用所述分析视图时,依据行为集合的包括历史处理量、访问频率、URI数据种类和URI数据数量的指标标记威胁行为集合,所述半自动反爬系统根据所述行为集合统计指标,自动生成处置策略参数并推送到威胁行为数据库中,供爬虫实时监测使用;
所述日志分析引擎用于为接收到的UID和URI数据提供可扩展的存储能力,以及用于为所述行为集合统计指标和与业务场景相关的统计指标的计算提供高可用的算力;
所述请求防护处理单元用于根据从所述ELT处理单元接收到的UID和URI数据,记录每个UID访问的URI数据,并生成每个UID的实时行为集合,之后判断每个UID的实时行为集合是否在威胁行为数据库中,然后采用一系列反爬处理方案对在威胁行为数据库中的行为集合作合理处置。
2.根据权利要求1所述的半自动反爬系统,其特征在于,所述请求防护处理单元包括实时流量监测模块和处理模块;
所述实时流量监测模块用于监测实时流量是否在威胁行为数据库中,具体过程为:记录每个UID访问的URI数据并生成每个UID的实时行为集合;将每个UID的实时行为集合与威胁行为集合进行比对,命中后将相应UID记录到威胁UID数据库中,没命中则进入正常业务办理流程;
所述处理模块用于将ETL处理得到的UID和URI数据与威胁UID数据库实时比对,命中后进入拦截判断,如果拦截,则对相应UID的访问生成处置信息并返回数据到用户端,同时记录到历史处置记录中;如果不拦截,则进入正常业务办理流程。
3.根据权利要求1或2所述的半自动反爬系统,其特征在于,所述与业务场景相关的统计指标包括:登录次数、注册次数、搜索次数、历史处置次数和付款次数。
4.根据权利要求1或2所述的半自动反爬系统,其特征在于,所述分析视图包含以下信息:UID数量、总访问量、行为集合长度、动/静URI访问比例、真人概率和业务相关的统计量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京人人云图信息技术有限公司,未经北京人人云图信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010674637.4/1.html,转载请声明来源钻瓜专利网。