[发明专利]一种网站分类方法、装置及设备有效
申请号: | 202010636907.2 | 申请日: | 2020-07-03 |
公开(公告)号: | CN111783016B | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 崔阳;章鹏;朱标;刘小刚 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/951;G06K9/62 |
代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 王戈 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网站 分类 方法 装置 设备 | ||
本说明书实施例公开了一种网站分类方法、装置及设备,方案包括:获取目标网站;计算所述目标网站的综合采集价值;根据所述综合采集价值,确定对所述目标网站进行数据采集的数据采集方式;利用确定的所述数据采集方式对所述目标网站进行数据采集,得到采集数据;将所述采集数据输入到网站评估模型,得到评估结果;根据所述评估值确定所述目标网站是否为违规网站。
技术领域
本申请涉及计算机技术领域,尤其涉及一种网站分类方法、装置及设备。
背景技术
随着计算机技术的发展,网络为人们的生活带来了便捷,例如,人们可以通过网络获取各种新闻消息,还可以进行网购、缴费、转账等等。同时,网络中也充斥着各种风险,例如,网络中存在钓鱼网站、传销网站、赌博网站等违规网站,这些违规网站严重影响人们的生活。因此,有效识别违规网站是提高网络安全的一部分。
目前,对于一些违规网站通常会采用群众反馈或者监测资源转移是否异常等方式来识别,而这些方式存在滞后性,通常是用户在此违规网站已经产生了资源损失,才会投诉举报,因此,如何及时识别违规网站,成为了亟需解决的问题。
发明内容
本说明书实施例提供一种网站分类方法、装置及设备,以解决现有的网站分类方法中存在的滞后性的问题。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供的一种网站分类方法,包括:
获取目标网站;
计算所述目标网站的综合采集价值;所述综合采集价值用于表示在预设时刻采集所述目标网站得到的采集数据能够表示所述目标网站是否为违规网站的概率值;
根据所述综合采集价值,确定对所述目标网站进行数据采集的数据采集方式;所述综合采集价值与所述数据采集方式所需资源消耗正相关;
利用确定的所述数据采集方式对所述目标网站进行数据采集,得到采集数据;
将所述采集数据输入到网站评估模型,得到评估结果;所述评估结果用于表示所述目标网站为违规网站的评估值;
根据所述评估值确定所述目标网站是否为违规网站。
本说明书实施例提供的一种网站评估模型的更新方法,包括:
获取第一训练样本;
基于所述第一训练样本,得到打标样本;所述打标样本包是由人工对所述第一训练样本进行打标得到的样本;
对所述打标样本进行扩散,得到与所述打标样本相似的样本;
将所述相似的样本进行打标,得到第二训练样本;
利用所述打标样本和所述第二训练样本,对原始网站评估模型进行训练,得到更新后的所述网站评估模型;所述原始网站评估模型是根据已知样本训练得到的。
本说明书实施例提供的一种网站分类装置,包括:
网站获取模块,用于获取目标网站;
价值计算模块,用于计算所述目标网站的综合采集价值;所述综合采集价值用于表示在预设时刻采集所述目标网站得到的采集数据能够表示所述目标网站是否为违规网站的概率值;
采集方式确定模块,用于根据所述综合采集价值,确定对所述目标网站进行数据采集的数据采集方式;所述综合采集价值与所述数据采集方式所需资源消耗正相关;
采集数据获取模块,用于利用确定的所述数据采集方式对所述目标网站进行数据采集,得到采集数据;
网站评估模块,用于将所述采集数据输入到网站评估模型,得到评估结果;所述评估结果用于表示所述目标网站为违规网站的评估值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010636907.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防虫耐用的木门
- 下一篇:桥梁、隧道智能检测车机械臂系统