[发明专利]增强反爬系统识别性能的方法、装置和存储介质有效
申请号: | 201910045194.X | 申请日: | 2019-01-17 |
公开(公告)号: | CN109582855B | 公开(公告)日: | 2019-10-22 |
发明(设计)人: | 陈欢;陈振 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06K9/62 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 魏嘉熹;南毅宁 |
地址: | 100190 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 爬虫数据 存储介质 系统识别 训练数据 用户数据 爬虫 访问数据 聚类分析 聚类算法 人工标注 有效识别 更新 监督 学习 | ||
1.一种增强反爬系统识别性能的方法,其特征在于,所述方法包括:
通过基于监督学习建立的反爬系统对当前访问数据进行识别,以得到第一爬虫数据和用户数据;
基于聚类算法对所述用户数据进行聚类分析得到簇类数据;
将第二爬虫数据更新到所述反爬系统的训练数据,以使所述反爬系统根据更新后的所述训练数据进行训练,其中,所述第二爬虫数据由人工标注所述簇类数据得到。
2.根据权利要求1所述的方法,其特征在于,所述基于聚类算法对所述用户数据进行聚类分析得到簇类数据,包括:
于所述用户数据中提取特征向量,其中,所述特征向量包括访问地址、访问时间、访问频率和访问设备信息中的至少一者;
基于不同所述特征向量之间的距离,在所述用户数据之间建立边;
将所述用户数据中所有的极大团作为簇类数据。
3.根据权利要求2所述的方法,其特征在于,所述将所述用户数据中所有的极大团作为簇类数据之后,所述方法还包括:
去除所述极大团中的边缘样本。
4.根据权利要求3所述的方法,其特征在于,所述去除所述极大团中的边缘样本,包括:
计算同一极大团中用户数据之间的平均距离;
统计同一极大团中任一用户数据与其它用户数据之间的距离大于所述平均距离的数量;
若所述数量大于第一预设数量阈值,则认定所述用户数据为边缘样本,并去除所述边缘样本。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确认所述簇类数据的概率密度大于预设概率密度阈值和/或所述簇类数据中的用户数据的数量大于第二预设数量阈值。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述簇类数据中的用户数据进行数据增强,以增加所述簇类数据中用户数据的数量。
7.根据权利要求1所述的方法,其特征在于,所述反爬系统基于RNN模型建立。
8.一种增强反爬系统识别性能的装置,其特征在于,所述装置包括:
识别模块,被配置为通过基于监督学习建立的反爬系统对当前访问数据进行识别,以得到第一爬虫数据和用户数据;
聚类分析模块,被配置为基于聚类算法对所述用户数据进行聚类分析得到簇类数据;
更新训练模块,被配置为将第二爬虫数据更新到所述反爬系统的训练数据,以使所述反爬系统根据更新后的所述训练数据进行训练,其中,所述第二爬虫数据由人工标注所述簇类数据得到。
9.根据权利要求8所述的装置,其特征在于,所述聚类分析模块包括:
提取子模块,被配置为于所述用户数据中提取特征向量,其中,所述特征向量包括访问地址、访问时间、访问频率和访问设备信息中的至少一者;
建边子模块,被配置为基于不同所述特征向量之间的距离,在所述用户数据之间建立边;
输出子模块,被配置为将所述用户数据中所有的极大团作为簇类数据。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
去除模块,被配置为在所述输出子模块将所述用户数据中所有的极大团作为簇类数据之后,去除所述极大团中的边缘样本。
11.根据权利要求10所述的装置,其特征在于,所述去除模块包括:
计算子模块,被配置为计算同一极大团中用户数据之间的平均距离;
统计子模块,被配置为统计同一极大团中任一用户数据与其它用户数据之间的距离大于所述平均距离的数量;
认定子模块,被配置为若所述数量大于第一预设数量阈值,则认定所述用户数据为边缘样本,并去除所述边缘样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910045194.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于生成信息的方法和装置
- 下一篇:一种网络搜索行为的管控方法及装置