[发明专利]增强反爬系统识别性能的方法、装置和存储介质有效
申请号: | 201910045194.X | 申请日: | 2019-01-17 |
公开(公告)号: | CN109582855B | 公开(公告)日: | 2019-10-22 |
发明(设计)人: | 陈欢;陈振 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06K9/62 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 魏嘉熹;南毅宁 |
地址: | 100190 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本公开涉及一种增强反爬系统识别性能的方法、装置和存储介质,所述方法包括:通过基于监督学习建立的反爬系统对当前访问数据进行识别,以得到第一爬虫数据和用户数据;基于聚类算法对所述用户数据进行聚类分析得到簇类数据;将第二爬虫数据更新到所述反爬系统的训练数据,以使所述反爬系统根据更新后的所述训练数据进行训练,其中,所述第二爬虫数据由人工标注所述簇类数据得到。用于解决相关技术中反爬系统难以对新出现的爬虫进行有效识别的技术问题。 | ||
搜索关键词: | 爬虫数据 存储介质 系统识别 训练数据 用户数据 爬虫 访问数据 聚类分析 聚类算法 人工标注 有效识别 更新 监督 学习 | ||
【主权项】:
1.一种增强反爬系统识别性能的方法,其特征在于,所述方法包括:通过基于监督学习建立的反爬系统对当前访问数据进行识别,以得到第一爬虫数据和用户数据;基于聚类算法对所述用户数据进行聚类分析得到簇类数据;将第二爬虫数据更新到所述反爬系统的训练数据,以使所述反爬系统根据更新后的所述训练数据进行训练,其中,所述第二爬虫数据由人工标注所述簇类数据得到。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910045194.X/,转载请声明来源钻瓜专利网。
- 上一篇:用于生成信息的方法和装置
- 下一篇:一种网络搜索行为的管控方法及装置