[发明专利]网页结构变更检测方法、装置及计算机可读存储介质在审
申请号: | 201910185344.7 | 申请日: | 2019-03-12 |
公开(公告)号: | CN110046295A | 公开(公告)日: | 2019-07-23 |
发明(设计)人: | 檀传华;冉梦龙;孟文斌;李祖光;陈锦韬 | 申请(专利权)人: | 重庆金融资产交易所有限责任公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 400010 重庆市渝*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页结构 网页数据 分层 变更检测 计算机可读存储介质 抽样数据 数据处理 比较法 目标网站 数据对比 预设周期 主动检测 主动探测 配置的 位置处 配置 变更 | ||
1.一种网页结构变更检测方法,其特征在于,所述方法包括:
按照分层配置的方式,对目标网站的网页结构进行分层,并针对分层得到的每层网页结构进行相应的配置;
按照预设周期,提取分层配置后的网页数据,并对提取的所述网页数据进行数据处理;
利用抽样数据比较法,将经过数据处理后的已提取的本次网页数据,与提取本次网页数据之前、相邻的前一次针对相同位置处提取的上次网页数据,进行数据对比;
根据所述本次网页数据与上次网页数据的比较结果,判断所述网页结构是否发生变化。
2.如权利要求1所述的网页结构变更检测方法,其特征在于,所述按照分层配置的方式,对目标网站的网页结构进行分层,并针对分层得到的每层网页结构进行相应的配置,包括:
针对待检测目标网站的网页结构,将所述网页结构分成两层,得到第一层网页结构对应的模块,以及所述模块对应的第二层网页结构中的网页样例;
对第一层网页结构对应的各个模块分别配置需要探测的XML路径语言,对第二层网页结构,基于所述模块对应的网页样例配置所述模块对应的实际网页URL地址。
3.如权利要求1所述的网页结构变更检测方法,其特征在于,所述按照预设周期,提取分层配置后的网页数据,并对提取的所述网页数据进行数据处理,包括:
按照预设周期,根据配置的网页URL地址,提取分层后每个所述模块包含的网页样例对应的网页片段内容;
按照预设算法,对获取的所述网页片段内容进行数据处理,得到数据处理后所述网页片段内容对应的校验值。
4.如权利要求1所述的网页结构变更检测方法,其特征在于,所述利用抽样数据比较法,将经过数据处理后的已提取的本次网页数据,与提取本次网页数据之前、相邻的前一次针对相同位置处提取的上次网页数据,进行数据对比,包括:
按照预设算法,计算所述本次网页数据对应的校验值M11,再按照相同的所述预设算法,计算与本次提取相同位置处的、相邻前一次提取的所述上次网页数据的校验值M12;
计算n个不同位置处分别对应的所述本次网页数据对应的校验值Mn1,以及与本次提取相同位置处的所述上次网页数据对应的校验值Mn2,得到n组所述本次网页数据以及上次网页数据分别对应的校验值;
将得到的n组所述校验值分别进行对比,识别n组校验值中的Mn1与Mn2是否相同,并记录每组数据识别结果。
5.如权利要求1至4任一项所述的网页结构变更检测方法,其特征在于,所述根据所述本次网页数据与上次网页数据的比较结果,判断所述网页结构是否发生变化,包括:
若一个或者多个网页片段对应的所述本次网页数据的校验值与所述上次网页数据的校验值一致,则判断所述网页结构没有发生变化;
若抽取的n个位置处的所述本次网页数据的校验值与所述上次网页数据的校验值,全都不一致,则判断网页结构发生了变化。
6.一种网页结构变更检测装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的网页结构变更检测程序,所述网页结构变更检测程序被所述处理器执行时实现如下步骤:
按照分层配置的方式,对目标网站的网页结构进行分层,并针对分层得到的每层网页结构进行相应的配置;
按照预设周期,提取分层配置后的网页数据,并对提取的所述网页数据进行数据处理;
利用抽样数据比较法,将经过数据处理后的已提取的本次网页数据,与提取本次网页数据之前、相邻的前一次针对相同位置处提取的上次网页数据,进行数据对比;
根据所述本次网页数据与上次网页数据的比较结果,判断所述网页结构是否发生变化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆金融资产交易所有限责任公司,未经重庆金融资产交易所有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910185344.7/1.html,转载请声明来源钻瓜专利网。