[发明专利]数据处理方法、装置及电子设备有效
申请号: | 201811063852.X | 申请日: | 2018-09-12 |
公开(公告)号: | CN110895593B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 孙建亮 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 刘戈 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 电子设备 | ||
本申请实施例提供一种数据处理方法、装置及电子设备,其中方法包括:获取网站服务器与终端设备之间传输的网页的下行数据;判断所述下行数据是否满足预设条件;若满足,则查找所述下行数据对应的上行数据;根据所述上行数据确定所述网页对应的URL。本申请实施例提供的数据处理方法、装置及电子设备,能够快速、准确地利用网站服务器与终端设备之间传输的真实数据来查找满足预设条件的网页URL,获取到的网页内容与实际展示给用户的网页内容一致,同时通过上行数据来确定网页URL,有效提高了网页提取的准确性和效率。
技术领域
本申请涉及互联网技术领域,尤其涉及一种数据处理方法、装置及电子设备。
背景技术
随着互联网技术的不断发展和硬件设备处理速度的不断提升,各种网站也层出不穷,如何从中提取出符合要求的网页成为新的问题,例如,为了保证网络信息合法性,常常需要及时从海量的网页中提取出内容违规的网页。
现有技术中,通常采用离线爬取的方案来查找违规网页的URL,首先离线搜集HTTP访问日志,并在一段时间内对该日志进行去重,然后将去重之后的URL进行离线爬取,通过相关算法对爬取获得的内容进行处理,判断网页是否为违规网页,若是,则上报网页URL到违规处理平台。
现有技术的不足之处在于,因为离线爬取时不一定具备用户的相关信息,所以爬取的页面很有可能是失败网页或者是空网页,也就是说,通过离线爬取的方式获得的网页内容不一定与展示给用户的网页内容一致,会漏掉很多有用户权限管理的违规网页,因此导致网页提取效果较差、效率较低。
发明内容
有鉴于此,本申请实施例提供一种数据处理方法、装置及电子设备,以提高查找符合要求的网页URL的效率。
第一方面,本申请实施例提供一种数据处理方法,包括:
获取网站服务器与终端设备之间传输的网页的下行数据;
判断所述下行数据是否满足预设条件;
若满足,则查找所述下行数据对应的上行数据;
根据所述上行数据确定所述网页对应的URL。
第二方面,本申请实施例提供一种数据处理方法,包括:
获取服务器与终端设备之间传输的网页的下行数据,其中,所述下行数据包括所述服务器向所述终端设备发送的数据;
判断所述下行数据是否包含满足预设条件的关键词;
若包含,则查找所述下行数据对应的上行数据,其中,所述上行数据包括所述终端设备向所述服务器发送的数据;
根据所述上行数据确定满足预设条件的网页的URL。
第三方面,本申请实施例提供一种数据处理装置,包括:
第一获取模块,用于获取网站服务器与终端设备之间传输的网页的下行数据;
第一判断模块,用于判断所述下行数据是否满足预设条件;
第一查找模块,用于在所述下行数据满足预设条件时,查找所述下行数据对应的上行数据;
第一确定模块,用于根据所述上行数据确定所述网页对应的URL。
第四方面,本申请实施例提供一种数据处理装置,包括:
第二获取模块,用于获取网站服务器与终端设备之间传输的网页的下行数据,其中,所述下行数据包括所述服务器向所述终端设备发送的数据;
第二判断模块,用于判断所述下行数据是否包含满足预设条件的关键词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811063852.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:安装包生成方法、装置、介质及电子设备
- 下一篇:一种张紧轮