[发明专利]网页数据处理方法及装置在审
申请号: | 202011174681.5 | 申请日: | 2020-10-28 |
公开(公告)号: | CN112507389A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 陈恒如 | 申请(专利权)人: | 西安四叶草信息技术有限公司 |
主分类号: | G06F21/64 | 分类号: | G06F21/64;G06F16/955 |
代理公司: | 北京挺立专利事务所(普通合伙) 11265 | 代理人: | 韩畅 |
地址: | 710086 陕西省西安市高新区鱼化*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 数据处理 方法 装置 | ||
本公开提供一种网页数据处理方法及装置,涉及电子信息技术领域,能够解决检测网页数据是否发生篡改的问题。具体技术方案为:获取目标网页及该目标网页的目标网页数据,并获取该目标网页对应的预设页面数据;当目标网页的目标页面数据与预设网页数据不一致时,确定该目标网页被篡改。本公开用于网页数据的处理。
技术领域
本公开涉及电子信息技术领域,尤其涉及网页数据处理方法及装置。
背景技术
现有技术中,越来越多的用户通过登录网页获取目标页面数据,因此网页内容的真实与准确愈发重要,为了检测网页中的数据是否被篡改,现有的网页篡改技术,通过对比网页内容文本、网页结构、以及网页资源的MD5来判断网页是否被篡改。但随着技术的日新月异,更多更先进的网页篡改手段被发现并应用,极大地限制了网页篡改检测地准确性和可靠性。
发明内容
本公开实施例提供一种网页数据处理方法及装置,能够解决检测网页是否被篡改时效率低的问题。所述技术方案如下:
根据本公开实施例的第一方面,提供一种网页数据处理方法,该方法包括:
获取目标网页及该目标网页中的目标页面数据,该目标页面数据至少包括该目标网页的目标地址信息、该目标网页的静态数据、该目标网页的动态数据和该目标网页的外部链接中的一项;
根据该目标页面数据,获取该目标网页对应的预设页面数据;
当该目标页面数据和该预设页面数据不匹配时,则确定该目标网页被篡改。
在一个实施例中,该方法中获取该目标网页对应的目标页面数据,包括:
根据预设规则,对该目标网页进行加载处理,并通过爬虫技术获取该目标网页中的图像数据和文字数据;
根据该目标网页中的图像数据和文字数据,获取目标页面数据中的静态数据;
或者,
根据预设传输协议,获取该目标网页的目标地址信息;
或者,
根据预设规则,对该目标网页进行加载处理,并通过爬虫技术获取该目标网页中的网页资源地址;
根据该网页资源地址,获取该目标网页中的外部链接信息;
或者,
获取预设操作指令,该预设操作指令至少包括:点击操作或滑动操作中的至少一项;
响应该预设操作指令,通过爬虫算法获取该预设操作指令对应的数据;
根据该预设操作指令对应的数据,获取该目标页面数据中的动态数据。
在一个实施例中,该方法中确定该目标网页被篡改,包括:
当该目标页面数据为动态数据时,获取该目标网页对应的至少一个预设操作指令和该至少一个预设操作指令对应的预设动态数据;
根据预设规则和该至少一个预设操作指令,逐个对比该预设操作指令对应的预设动态数据和该目标页面数据中的动态数据,并获取对比结果;
当该对比结果大于预设的差异值时,则确定该目标网页被篡改。
在一个实施例中,该方法中确定该目标网页被篡改,包括:
当该目标页面数据为外部链接时,加载该外部链接,并进行合法性判断;
当该外部链接为不合法的链接时,则确定该目标网页被篡改;
当该外部链接为合法的链接时,则获取该外部链接对应的目标链接参数,并获取该预设页面数据中外部链接对应的预设链接参数,该链接参数包括:链接标识信息、链接跳转信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安四叶草信息技术有限公司,未经西安四叶草信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011174681.5/2.html,转载请声明来源钻瓜专利网。