[发明专利]网页数据处理方法及装置在审
申请号: | 202011174681.5 | 申请日: | 2020-10-28 |
公开(公告)号: | CN112507389A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 陈恒如 | 申请(专利权)人: | 西安四叶草信息技术有限公司 |
主分类号: | G06F21/64 | 分类号: | G06F21/64;G06F16/955 |
代理公司: | 北京挺立专利事务所(普通合伙) 11265 | 代理人: | 韩畅 |
地址: | 710086 陕西省西安市高新区鱼化*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 数据处理 方法 装置 | ||
1.一种网页数据处理方法,其特征在于,所述方法包括:
获取目标网页及所述目标网页中的目标页面数据,所述目标页面数据至少包括所述目标网页的目标地址信息、所述目标网页的静态数据、所述目标网页的动态数据和所述目标网页的外部链接中的一项;
根据所述目标页面数据,获取所述目标网页对应的预设页面数据;
当所述目标页面数据和所述预设页面数据不匹配时,则确定所述目标网页被篡改。
2.根据权利要求1所述的方法,其特征在于,获取所述目标网页对应的目标页面数据,包括:
根据预设规则,对所述目标网页进行加载处理,并通过爬虫技术获取所述目标网页中的图像数据和文字数据;
根据所述目标网页中的图像数据和文字数据,获取所述目标网页中的静态数据;
或者,
根据预设传输协议,获取所述目标网页的目标地址信息;
或者,
根据预设规则,对所述目标网页进行加载处理,并通过爬虫技术获取所述目标网页中的网页资源地址;
根据所述网页资源地址,获取所述目标网页中的外部链接;
或者,
获取预设操作指令,所述预设操作指令至少包括:点击操作或滑动操作中的一项;
响应所述预设操作指令,通过爬虫算法获取所述预设操作指令对应的数据;
根据所述预设操作指令对应的数据,获取所述目标页面数据中的动态数据。
3.根据权利要求1所述的方法,其特征在于,所述确定所述目标网页被篡改,包括:
当所述目标页面数据为动态数据时,获取所述目标网页对应的至少一个预设操作指令和所述至少一个预设操作指令对应的预设动态数据;
根据预设规则和所述至少一个预设操作指令,逐个对比所述预设操作指令对应的预设动态数据和所述目标页面数据中的动态数据,并获取对比结果;
当所述对比结果大于预设的差异值时,则确定所述目标网页被篡改。
4.根据权利要求1所述的方法,其特征在于,所述确定所述目标网页被篡改,包括:
当所述目标页面数据为外部链接时,加载所述外部链接,并进行合法性判断;
当所述外部链接为不合法的链接时,则确定所述目标网页被篡改;
当所述外部链接为合法的链接时,则获取所述外部链接对应的目标链接参数,并获取所述预设页面数据中外部链接对应的预设链接参数,所述链接参数包括:链接标识信息、链接跳转信息;
当所述预设链接参数与所述目标链接参数不匹配时,则确定所述目标网页被篡改。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当确定所述目标网页被篡改后,获取所述目标页面数据与所述预设页面数据不匹配的目标篡改数据;
根据所述目标篡改数据,生成提示信息,并对所述目标网页进行处理,所述提示信息用于提示所述目标网页被篡改;
其中,所述对目标网页进行处理,包括:禁止访问所述目标网页,或者禁止加载处理所述目标网页中的数据,或禁止跳转该目标网页中的地址或者对所述目标篡改数据进行标记处理。
6.一种网页数据处理装置,其特征在于,包括:第一获取模块、第二获取模块和处理模块,所述处理模块分别和所述第一获取模块和所述第二获取模块相连接,
所述第一获取模块,用于获取目标网页及所述目标网页中的目标页面数据,所述目标页面数据至少包括所述目标网页的目标地址信息、所述目标网页的静态数据、所述目标网页的动态数据和所述目标网页的外部链接中的一项;
所述第二获取模块,用于根据所述目标页面数据,获取所述目标网页对应的预设页面数据;
所述处理模块,用于当所述目标页面数据和预设页面数据不匹配时,则确定所述目标网页被篡改。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安四叶草信息技术有限公司,未经西安四叶草信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011174681.5/1.html,转载请声明来源钻瓜专利网。