[发明专利]一种基于行为特征的半自动反爬系统在审
申请号: | 202010674637.4 | 申请日: | 2020-07-14 |
公开(公告)号: | CN111914255A | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 陈芝茂;同锋;蔡月月 | 申请(专利权)人: | 北京人人云图信息技术有限公司 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;H04L29/06;G06F16/25 |
代理公司: | 北京航智知识产权代理事务所(普通合伙) 11668 | 代理人: | 陈磊;张桢 |
地址: | 100191 北京市海淀区北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 行为 特征 半自动 系统 | ||
本发明属于网络数据安全领域,涉及一种基于行为特征的半自动反爬系统,包括ETL处理单元、行为分析及管理单元、日志分析引擎和请求防护处理单元;其中,ELT处理单元对用户端发起请求的request信息进行ETL处理,得到的UID和URI数据;行为分析及管理单元以接收到的UID为主键聚合,对接收到的URI数据进行去重处理,生成行为集合和业务场景相关的统计指标;以行为集合为主键聚合,生成分析视图,以判断行为集合是否威胁;若判断是威胁行为集合,则管理威胁行为集合,记录并跟踪威胁行为集合,依据行为集合访问频率、URI数据种类和URI数据数量自动生成处置策略参数,并推送到数据库中,供爬虫实时监测使用。
技术领域
本发明属于网络数据安全领域,涉及一种基于用户行为分析的爬虫自动识别和处置系统。
背景技术
现有基于后端数据的反爬系统总体来说有两个方向:一个是基于人工策略和字符特征匹配的爬虫识别和拦截方法,另一个是结合有监督与无监督机器学习的爬虫识别和拦截方法。前一类方式需要业务专家与策略专家共同协作才能提取并应用爬虫识别特征,其从识别到拦截生效周期长,人工成本高,通用性低。第二类引入机器学习方法来识别爬虫的方式,优点是规则的发现由算法从数据样本中自动学习,缺点是需要大量的数据标注,且泛化、更新成本高。
无论是使用有监督的机器学习(例如授权公告号:CN 109582855B)还是无监督的机器学习,均严重依赖标注数据,而生产服务系统中,日志数据、业务数据量巨大,人工标注、及时更新是一个不可持续的过程。此外,如果爬虫行为更改,而机器学习预先设计的特征不能刻画它,则难以抓住新的爬虫。除了以上缺点,现有反爬系统普遍存在的问题是泛化能力低。人工的规则、字符特征和机器学习,往往都是在特定业务场景下总结的,面对新场景时难以快速接入、生效。
发明内容
为了解决上述已有技术存在的不足,本发明提出一种基于行为特征的半自动反爬系统。
本发明提供了一种基于行为特征的半自动反爬系统,包括ETL处理单元、行为分析及管理单元、日志分析引擎和请求防护处理单元;
所述ELT处理单元用于对用户端发起请求的request信息进行ETL处理,将得到的UID和URI数据传输至、所述行为分析及管理单元、所述日志分析引擎和所述请求防护处理单元;
所述行为分析及管理单元用于:以接收到的UID为主键聚合,对接收到的URI数据进行去重处理,生成UID的行为集合、行为集合统计指标和与业务场景相关的统计指标;以所述行为集合为主键聚合,生成分析视图,以判断所述行为集合是否为威胁行为集合;若判断所述行为集合是威胁行为集合,则将威胁行为集合记录到威胁行为数据库,并跟踪所述请求防护处理单元的处理结果,用于生成历史处理指标;
所述行为分析及管理单元的最小输入、输出和内部处理逻辑为:业务专家或策略专家可使用所述分析视图时,依据行为集合的包括历史处理量、访问频率、URI数据种类和URI数据数量的指标标记威胁行为集合,所述半自动反爬系统根据所述行为集合统计指标,自动生成处置策略参数并推送到威胁行为数据库中,供爬虫实时监测使用;
所述日志分析引擎用于为接收到的UID和URI数据提供可扩展的存储能力,以及用于为所述行为集合统计指标和与业务场景相关的统计指标的计算提供高可用的算力;
所述请求防护处理单元用于根据从所述ELT处理单元接收到的UID和URI数据,记录每个UID访问的URI数据,并生成每个UID的实时行为集合,之后判断每个UID的实时行为集合是否在威胁行为数据库中,然后采用一系列反爬处理方案对在威胁行为数据库中的行为集合作合理处置。
进一步,所述请求防护处理单元包括实时流量监测模块和处理模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京人人云图信息技术有限公司,未经北京人人云图信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010674637.4/2.html,转载请声明来源钻瓜专利网。