[发明专利]一种网页识别方法与设备有效

专利信息
申请号: 201810564315.7 申请日: 2018-06-04
公开(公告)号: CN110619075B 公开(公告)日: 2023-04-18
发明(设计)人: 肖建冰 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F16/9535 分类号: G06F16/9535;G06F16/957;G06F16/21;G06F18/2415
代理公司: 广州铸智知识产权代理有限公司 44886 代理人: 孙丹丹
地址: 英属开曼群岛大开*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网页 识别 方法 设备
【说明书】:

本申请提供的网页识别方案,可以先获取第一网页对应的用户访问记录,其中,该第一网页为已知的具有第一属性的网页,进而基于所述用户访问记录确定一个或多个用户,并根据所述用户的特征信息获得所述用户访问的第二网页,然后从所述第二网页中识别出具有所述第一属性的目标网页。本申请的方案可以有效降低识别目标网页的检测成本,提高检测效率。

技术领域

本申请涉及网络安全处理领域,尤其涉及一种网页识别的技术。

背景技术

随着云平台服务的广泛应用,网页内容提供方均可以通过使用云平台服务向其用户提供网页,由此云平台上会存储海量的网页内容。实际场景中,一些网页内容提供方可能会违规提供一些包含不良内容的网页,,对于这些网页的信息传播的危害性若是不予重视、放任不管,将会造成极坏的社会影响。现有技术中,通常是采用对云平台上所有的网页都进行筛选检查的方法来检测违法违规网页。例如,拦截云平台上所有网页的用户请求,并读取用户请求得到的网页内容,再使用算法分析获取违法违规网页,具体地,当用户访问云平台上的网站时,当用户收到网站响应请求的数据时,检测系统会通过关键词匹配的方式从响应数据中找到违法信息,并根据用户请求信息追溯到违法信息所属的网页。又如,直接使用爬虫爬取云平台上所有网页,并对网页内容使用算法分析获取违法违规网页。

上述现有技术的检测方法,因为都需要对几乎所有网页进行筛选检查,操作成本极高,特别是当云平台上待检测网页数量极大时,这种检测操作几乎是无法有效实现的;同时,关键词匹配检测方法只能通过关键词比对的方式查找文本信息,效果较差,且网站可能使用混淆关键词的方式来规避检测手段;此外,现有的检测方法,如上述关键词匹配检测方法,通常只能处理文本信息,无法识别图片、音频等信息,功能扩展性较差。

发明内容

本申请的目的是提供一种网页识别方法与设备,以解决现有技术中无法高效地从用户访问的网页中筛选目标网页的技术问题。

根据本申请的一个方面,提供了一种网页识别的方法,包括:

获取第一网页对应的用户访问记录,其中,所述第一网页为已知的具有第一属性的网页;

基于所述用户访问记录确定一个或多个目标用户;

根据所述目标用户的特征信息获得所述目标用户访问的第二网页,所述第二网页包括一个或多个网页;

从所述第二网页中识别出具有所述第一属性的目标网页。

基于本申请的另一方面,还提供了一种网页识别设备,包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述设备执行前述的网页识别方法。

此外,本申请还提供了一种网页识别设备,包括:

用户识别装置,用于获取第一网页对应的用户访问记录,基于所述用户访问记录确定一个或多个目标用户,其中,所述第一网页为已知的具有第一属性的网页;

候选网页获取装置,用于根据所述目标用户的特征信息获得所述目标用户访问的第二网页,所述第二网页包括一个或多个网页;

网页识别装置,用于从所述第二网页中识别出具有所述第一属性的目标网页。

本申请提供的网页识别方案中,可以先获取第一网页对应的用户访问记录,其中,该第一网页为已知的具有第一属性的网页,进而基于所述用户访问记录确定一个或多个用户,并根据所述用户的特征信息获得所述用户访问的第二网页,然后从所述第二网页中识别出具有所述第一属性的目标网页。由于本申请的方案中从一批已知第一网页的用户访问记录入手,通过访问用户的特征信息来确定作为目标网页检测候选集合的第二网页,而不再是无差别检测所有网页信息的方式,因此可以有效降低识别目标网页时的检测成本,提高检测效率。

附图说明

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810564315.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top