[发明专利]数据处理方法、装置及电子设备有效

申请号：	201811063852.X	申请日：	2018-09-12
公开（公告）号：	CN110895593B	公开（公告）日：	2023-06-20
发明（设计）人：	孙建亮	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F16/955	分类号：	G06F16/955
代理公司：	北京太合九思知识产权代理有限公司 11610	代理人：	刘戈
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据处理方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例提供一种数据处理方法、装置及电子设备，其中方法包括：获取网站服务器与终端设备之间传输的网页的下行数据；判断所述下行数据是否满足预设条件；若满足，则查找所述下行数据对应的上行数据；根据所述上行数据确定所述网页对应的URL。本申请实施例提供的数据处理方法、装置及电子设备，能够快速、准确地利用网站服务器与终端设备之间传输的真实数据来查找满足预设条件的网页URL，获取到的网页内容与实际展示给用户的网页内容一致，同时通过上行数据来确定网页URL，有效提高了网页提取的准确性和效率。

技术领域

本申请涉及互联网技术领域，尤其涉及一种数据处理方法、装置及电子设备。

背景技术

随着互联网技术的不断发展和硬件设备处理速度的不断提升，各种网站也层出不穷，如何从中提取出符合要求的网页成为新的问题，例如，为了保证网络信息合法性，常常需要及时从海量的网页中提取出内容违规的网页。

现有技术中，通常采用离线爬取的方案来查找违规网页的URL，首先离线搜集HTTP访问日志，并在一段时间内对该日志进行去重，然后将去重之后的URL进行离线爬取，通过相关算法对爬取获得的内容进行处理，判断网页是否为违规网页，若是，则上报网页URL到违规处理平台。

现有技术的不足之处在于，因为离线爬取时不一定具备用户的相关信息，所以爬取的页面很有可能是失败网页或者是空网页，也就是说，通过离线爬取的方式获得的网页内容不一定与展示给用户的网页内容一致，会漏掉很多有用户权限管理的违规网页，因此导致网页提取效果较差、效率较低。

发明内容

有鉴于此，本申请实施例提供一种数据处理方法、装置及电子设备，以提高查找符合要求的网页URL的效率。

第一方面，本申请实施例提供一种数据处理方法，包括：

获取网站服务器与终端设备之间传输的网页的下行数据；

判断所述下行数据是否满足预设条件；

若满足，则查找所述下行数据对应的上行数据；