[发明专利]网页结构变更检测方法、装置及计算机可读存储介质在审

专利信息
申请号: 201910185344.7 申请日: 2019-03-12
公开(公告)号: CN110046295A 公开(公告)日: 2019-07-23
发明(设计)人: 檀传华;冉梦龙;孟文斌;李祖光;陈锦韬 申请(专利权)人: 重庆金融资产交易所有限责任公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/955
代理公司: 深圳市沃德知识产权代理事务所(普通合伙) 44347 代理人: 高杰;于志光
地址: 400010 重庆市渝*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 网页结构 网页数据 分层 变更检测 计算机可读存储介质 抽样数据 数据处理 比较法 目标网站 数据对比 预设周期 主动检测 主动探测 配置的 位置处 配置 变更
【说明书】:

发明涉及UI设计技术领域,揭露了一种网页结构变更检测方法,该方法包括:按照分层配置的方式,对目标网站的网页结构进行分层,并针对分层得到的每层网页结构进行相应的配置;按照预设周期,提取分层配置后的网页数据,并对提取的所述网页数据进行数据处理;利用抽样数据比较法,将经过数据处理后的已提取的本次网页数据,与提取本次网页数据之前、相邻的前一次针对相同位置处提取的上次网页数据,进行数据对比;根据所述本次网页数据与上次网页数据的比较结果,判断所述网页结构是否发生变化。本发明还提出一种网页结构变更检测装置以及一种计算机可读存储介质。本发明实现了一种采用抽样数据比较的方法主动检测网页结构是否发生变化的网页结构变更主动探测技术。

技术领域

本发明涉及计算机技术领域,尤其涉及一种网页结构变更检测方法、装置及计算机可读存储介质。

背景技术

随着互联网技术的飞速发展,人们使用网页来获取信息的方式也基本得以普及。网页内容的布局会直接影响该网页页面的用户体验以及相关性,且在一定程度上影响网站的整体结构以及页面被收录的数量;而网页结构实际上就是对导航栏、栏目以及正文内容这三大页面基本组成元素所进行的组织和布局。

通常情况下,网页结构都会根据网页的内容进行调整,不同的网页内容决定不同的网页结构;当目标网站对应的网页内容发生变化时,其网页结构通常也会跟着进行调整。若目标网站的网页结构发生了改变,则数据抓取系统(即爬虫系统)在运行时,将无法抓取到正确的数据,或者数据抓取系统直接发生异常,从而被动地感知到网页结构已经发生了改变。这种被动感知网页结构发生改变后再采取相应的措施,通常会耽误较长的时间。因此,如何主动检测网页结构是否发生变化以便提前采取相应的应对措施,成为目前亟待解决的问题之一。

发明内容

本发明提供一种网页结构变更检测方法、装置及计算机可读存储介质,旨在采用抽样数据比较的方法主动检测网页结构是否发生变化。

为实现上述目的,本发明提供了一种网页结构变更检测方法,该方法包括:

按照分层配置的方式,对目标网站的网页结构进行分层,并针对分层得到的每层网页结构进行相应的配置;

按照预设周期,提取分层配置后的网页数据,并对提取的所述网页数据进行数据处理;

利用抽样数据比较法,将经过数据处理后的已提取的本次网页数据,与提取本次网页数据之前、相邻的前一次针对相同位置处提取的上次网页数据,进行数据对比;

根据所述本次网页数据与上次网页数据的比较结果,判断所述网页结构是否发生变化。

可选地,所述按照分层配置的方式,对目标网站的网页结构进行分层,并针对分层得到的每层网页结构进行相应的配置,包括:

针对待检测目标网站的网页结构,将所述网页结构分成两层,得到第一层网页结构对应的模块,以及所述模块对应的第二层网页结构中的网页样例;

对第一层网页结构对应的各个模块分别配置需要探测的XML路径语言,对第二层网页结构,基于所述模块对应的网页样例配置所述模块对应的实际网页URL地址。

可选地,所述按照预设周期,提取分层配置后的网页数据,并对提取的所述网页数据进行数据处理,包括:

按照预设周期,根据配置的网页URL地址,提取分层后每个所述模块包含的网页样例对应的网页片段内容;

按照预设算法,对获取的所述网页片段内容进行数据处理,得到数据处理后所述网页片段内容对应的校验值。

可选地,所述利用抽样数据比较法,将经过数据处理后的已提取的本次网页数据,与提取本次网页数据之前、相邻的前一次针对相同位置处提取的上次网页数据,进行数据对比,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆金融资产交易所有限责任公司,未经重庆金融资产交易所有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910185344.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top