[发明专利]一种基于智能流量导向切换的数据反爬取方法及装置有效
申请号: | 201910688075.6 | 申请日: | 2019-07-29 |
公开(公告)号: | CN110474890B | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 黄兴鲁 | 申请(专利权)人: | 深圳数位大数据科技有限公司 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;G06F21/62;G06F16/958 |
代理公司: | 广东良马律师事务所 44395 | 代理人: | 李良 |
地址: | 518000 广东省深圳市南山区粤海*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 智能 流量 导向 切换 数据 反爬取 方法 装置 | ||
1.一种基于智能流量导向切换的数据反爬取方法,其特征在于,所述方法包括:
获取网站核心数据,根据算法生成与核心数据类似的虚假数据,将虚假数据存储至预先构建的虚假数据服务器对应的数据库中;
检测到访问请求,根据访问请求的请求信息识别出爬虫程序;
将爬虫程序对应的请求导入到虚假数据服务器,返回虚假数据服务器对应的数据库中的虚假数据;
所述获取网站核心数据,根据算法生成与核心数据类似的虚假数据,将虚假数据存储至预先构建的虚假数据服务器对应的数据库中前,包括:
预先构建一个虚假数据服务器,所述虚假数据服务器用于存储与核心数据对应的虚假数据;
所述核心数据为数值型核心数据时,
所述获取网站核心数据,根据算法生成与核心数据类似的虚假数据,将虚假数据存储至预先构建的虚假数据服务器对应的数据库中,包括:
获取网站的数值型核心数据,使用随机算法或偏移算法对数值型核心数据进行处理,生成与数值型核心数据对应的数值型虚假数据;
将数值型虚假数据存储至预先构建的虚假数据服务器对应的数据库中;
所述核心数据为文本型核心数据时,
所述获取网站核心数据,根据算法生成与核心数据类似的虚假数据,将虚假数据存储至预先构建的虚假数据服务器对应的数据库中,包括:
获取网站的文本型核心数据,通过采取内容调换的方式生成与文本型核心数据对应的文本型虚假数据;
将文本型虚假数据存储至预先构建的虚假数据服务器对应的数据库中;
或是,
获取网站的文本型核心数据,通过对文本型核心数据的机器学习,依次进行训练文本型核心数据、特征抽取、训练模型、分类预测及生成虚假数据处理后,生成与文本型核心数据对应的文本型虚假数据;
将文本型虚假数据存储至预先构建的虚假数据服务器对应的数据库中。
2.根据权利要求1所述的基于智能流量导向切换的数据反爬取方法,其特征在于,所述检测到访问请求,根据访问请求的请求信息识别出爬虫程序,包括:
检测到访问请求后,获取访问请求的频率、IP、UA信息;
根据访问请求的频率、IP、UA信息对正常用户和爬虫程序进行筛选,获取爬虫程序及正常用户。
3.根据权利要求2所述的基于智能流量导向切换的数据反爬取方法,其特征在于,所述将爬虫程序对应的请求导入到虚假数据服务器,返回虚假数据服务器对应的数据库中的虚假数据,还包括:
将识别出的正常用户对应的请求导入到核心数据服务器,所述核心数据服务器用于存储网站核心数据;
将核心数据服务器对应数据库的核心数据返回给正常用户。
4.一种基于智能流量导向切换的数据反爬取装置,其特征在于,所述装置包括至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-3任一项所述的基于智能流量导向切换的数据反爬取方法。
5.一种非易失性计算机可读存储介质,其特征在于,所述非易失性计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行时,可使得所述一个或多个处理器执行权利要求1-3任一项所述的基于智能流量导向切换的数据反爬取方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳数位大数据科技有限公司,未经深圳数位大数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910688075.6/1.html,转载请声明来源钻瓜专利网。