[发明专利]一种采集动态网页完整数据内容的方法在审
申请号: | 201710846183.2 | 申请日: | 2017-09-19 |
公开(公告)号: | CN107729385A | 公开(公告)日: | 2018-02-23 |
发明(设计)人: | 陈高翔;范渊 | 申请(专利权)人: | 杭州安恒信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州中成专利事务所有限公司33212 | 代理人: | 周世骏 |
地址: | 310051 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及网络网页信息收集领域,旨在提供一种采集动态网页完整数据内容的方法。该种采集动态网页完整数据内容的方法包括步骤通过模拟浏览器打开需要采集的动态网页,获得一个真实环境下的页面状态;遍历页面的DOM树结构,对拥有或添加了点击事件以及鼠标悬停事件的标签所对应的DOM元素节点打上已入队标记,同时标记超链接标签、按钮标签对应的DOM元素节点,将打上标记的DOM元素节点存入处理队列;循环遍历处理队列中的标签,当处理队列为空后,即维护得到了该动态页面的完整页面数据。本发明采取模拟用户行为,通过触发网页的各种事件并监听修改原有事件处理函数的方法,充分获取并完善了网页的整体内容。 | ||
搜索关键词: | 一种 采集 动态 网页 完整 数据 内容 方法 | ||
【主权项】:
一种采集动态网页完整数据内容的方法,其特征在于,具体包括下述步骤:步骤(1):通过模拟浏览器打开需要采集的动态网页,并执行网页中的JavaScript脚本,获得一个真实环境下的页面状态;步骤(2):遍历步骤(1)获得的页面的DOM树结构,对拥有或添加了点击事件以及鼠标悬停事件的标签所对应的DOM元素节点打上已入队标记,同时标记超链接标签、按钮标签对应的DOM元素节点;将打上标记的DOM元素节点存入处理队列;步骤(3):循环遍历处理队列中的标签,逐个触发点击事件或悬停事件;并对产生的HTTP请求,以及DOM元素节点的添加、删除、修改行为进行监控,同时禁止网页的页面跳转行为;步骤(4):根据步骤(3)中行为的不同,进行不同的处理,具体如下:a)如果产生的行为是HTTP请求,则发出请求,并在获取响应时回调网页脚本的响应处理过程;b)如果产生的行为是DOM元素节点的添加,则执行该行为,添加该DOM元素节点到网页DOM树结构中对应的DOM元素节点下,并对添加的DOM元素节点进行遍历分析,对于具有步骤(2)中所述特征的网页标签所对应的DOM元素节点打上已入队标记,并加入处理队列;c)如果产生的行为是DOM元素节点的删除,则不删除原DOM元素节点,仅修改该DOM元素节点的id与名称,对该修改后的DOM元素节点打上删除标记;d)如果产生的行为是DOM元素节点的修改,则拷贝原DOM元素节点,修改原DOM元素节点的id、名称,对该修改后的原DOM元素节点打上修改标记,然后将监控到的修改应用到该拷贝后的新DOM元素节点上;最后对应用了修改的拷贝后的DOM元素节点进行分析,若为具有步骤(2)中所述特征的网页标签所对应的DOM元素节点,则打上标记并加入处理队列;步骤(5):当处理队列为空后,即维护得到了该动态页面的完整页面数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术有限公司,未经杭州安恒信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710846183.2/,转载请声明来源钻瓜专利网。