[发明专利]一种反制爬虫系统在审
申请号: | 202110790943.9 | 申请日: | 2021-07-13 |
公开(公告)号: | CN113343232A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 叶莹;于刚;李志刚 | 申请(专利权)人: | 壹药网科技(上海)股份有限公司 |
主分类号: | G06F21/55 | 分类号: | G06F21/55;G06F21/62 |
代理公司: | 上海申新律师事务所 31272 | 代理人: | 吴轶淳 |
地址: | 201210 上海市浦东*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 反制 爬虫 系统 | ||
本发明涉及互联网检测技术领域,尤其涉及一种反制爬虫系统,其中,包括:存储模块,预先保存爬虫请求方的历史药品访问记录;判断模块,接收请求方发送的访问请求,并在访问请求满足爬虫请求条件时,将请求方作为爬虫请求方;分类模块,查询并提取所有历史药品访问记录,对每个爬虫请求方的历史药品访问记录中的药品分类形成请求历史药品类别详情页;生成模块,根据请求历史药品类别详情页和后台数据库中保存的药品信息,生成虚假药品信息;反馈模块,将虚假药品信息反馈给爬虫请求方。有益效果:便于将虚假药品信息定向反馈给爬虫请求方,减少爬虫请求方获取的真实数据,提高后台数据库的保护能力,降低爬虫风险管理运营成本。
技术领域
本发明涉及互联网检测技术领域,尤其涉及一种反制爬虫系统。
背景技术
随着移动互联网的高速发展,各类公司都会通过网络上传海量的信息数据,这些数据以网页数据或手机APP服务等形式存在于互联网上,方便每一个用户访问。但同时,这些公司的数据还需要时刻防止恶意爬虫的入侵。
现有技术中,为防止恶意爬虫行为,主要采用以下方式进行反制。当发现爬虫请求后直接对爬虫方的网络地址、设备、账户等进行封禁,使得爬虫方无法再获取到本公司的数据,然而当爬虫方再被封禁后会通过网络地址代理池、批量注册马甲账户等方式绕过拦截策略,从而造成爬虫拦截策略失效或者增加成本的问题。
或者在交互式请求中发现爬虫方通过验证码、高级编程语言校验等方式识别请求方是否为机器爬虫,若识别出是机器爬虫则拦截请求。但是这种反制方式容易被爬虫方绕过,并且这种反制方式只适用于交互式页面,而静态页面则无法进行防护。因此,针对上述问题,成为本领域技术人员亟待解决的难题。
发明内容
针对现有技术中存在的上述问题,现提供一种反制爬虫系统。
具体技术方案如下:
本发明提供一种反制爬虫系统,其中,所述反制爬虫系统连接一药品线上销售平台的请求输入端,并连接所述药品线上销售平台的后台数据库;
所述后台数据库中预先保存有所述药品线上销售平台中销售的药品的药品信息;
则所述反制爬虫系统包括:
一存储模块,用于预先保存多个爬虫请求方的多个历史药品访问记录;
一判断模块,用于接收请求方发送至所述药品线上销售平台的访问请求,并在所述访问请求满足预设的爬虫请求条件时,将所述请求方作为所述爬虫请求方输出;
一分类模块,分别连接所述判断模块和所述存储模块,用于根据所述爬虫请求方,于所述存储模块中查询并提取对应的所有所述历史药品访问记录,以分别对每个所述爬虫请求方对应的所述历史药品访问记录中的药品进行分类,形成对应于每个所述爬虫请求方的一请求历史药品类别详情页;
一生成模块,连接所述分类模块,用于根据所述请求历史药品类别详情页以及所述后台数据库中保存的所述药品信息,生成不存在于所述后台数据库中的虚假药品信息;
一反馈模块,连接所述生成模块,用于将所述虚假药品信息定向反馈给对应的所述爬虫请求方。
优选的,所述请求条件包括下述条件中的至少两种:
所述药品线上销售平台的客户回访所述请求方未得到应答;
所述请求方所请求的数据字段不为空白且不含有唯一的序列号值;
所述请求方对应的购买账户在预设的历史时段内未进行交易操作。
优选的,所述分类模块包括:
一第一分类单元,用以根据每类药品的所述药品信息对所述药品线上销售平台中销售的药品进行分类,形成一药品类别清单;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于壹药网科技(上海)股份有限公司,未经壹药网科技(上海)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110790943.9/2.html,转载请声明来源钻瓜专利网。