[发明专利]网页数据处理方法、装置、计算机设备和存储介质在审

申请号：	201910857890.0	申请日：	2019-09-09
公开（公告）号：	CN110781366A	公开（公告）日：	2020-02-11
发明（设计）人：	梅锦振华	申请（专利权）人：	深圳壹账通智能科技有限公司
主分类号：	G06F16/951	分类号：	G06F16/951
代理公司：	44224 广州华进联合专利商标代理有限公司	代理人：	于丽君
地址：	518052 广东省深圳市前海深港合作区前***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	行为数据爬虫网页网页访问异常行为数据目标网页网页数据处理计算机设备存储介质访问数据数据提取特征输入预设规则访问检测申请
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及一种网页数据处理方法、装置、计算机设备和存储介质。所述方法包括：获取网页行为数据，根据预设规则检测网页行为数据中是否存在异常行为数据；当网页行为数据中存在异常行为数据时，获取异常行为数据对应的网页访问数据；根据网页访问数据提取访问特征，将访问特征输入到已训练的爬虫识别模型中，得到爬虫识别结果；当爬虫识别结果是网页访问数据为爬虫访问数据时，得到网页访问数据中的爬虫标识，根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据；根据爬虫网页行为数据和网页行为数据得到目标网页行为数据。采用本方法能够提高得到目标网页行为数据的准确性。

技术领域

本申请涉及互联网技术领域，特别是涉及一种网页数据处理方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的发展，用户通过互联网浏览网页页面的过程中，通过挖掘用户在网页中的行为数据，为用户提供更好的互联网服务。然而，随着爬虫技术的发展，网络爬虫越来越泛滥，当网络爬虫在爬取互联网数据时，会模拟用户行为，比如，模拟用户登录，登录之后爬取数据。从而导致挖掘到的网页行为数据不够准确。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高得到网页行为数据准确性的网页数据处理方法、装置、计算机设备和存储介质。

一种网页数据处理方法，所述方法包括：

获取网页行为数据，根据预设规则检测网页行为数据中是否存在异常行为数据；

当网页行为数据中存在异常行为数据时，获取异常行为数据对应的网页访问数据；

根据网页访问数据提取访问特征，将访问特征输入到已训练的爬虫识别模型中，得到爬虫识别结果；

当爬虫识别结果是网页访问数据为爬虫访问数据时，得到网页访问数据中的爬虫标识，根据爬虫标识从网页行为数据中得到对应的爬虫网页行为数据；

根据爬虫网页行为数据和网页行为数据得到目标网页行为数据。