[发明专利]基于机器学习的自适应动态网页爬虫系统的实现方法有效

专利信息
申请号: 201610802662.X 申请日: 2016-09-05
公开(公告)号: CN106775611B 公开(公告)日: 2020-02-18
发明(设计)人: 刘序文;王鹏;王和;邵利铎;刘苍牧;孙杰平;刘晗;李宏宇 申请(专利权)人: 中国人民财产保险股份有限公司
主分类号: G06F8/20 分类号: G06F8/20;G06N20/00
代理公司: 北京众达德权知识产权代理有限公司 11570 代理人: 刘杰
地址: 100000 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 机器 学习 自适应 动态 网页 爬虫 系统 实现 方法
【说明书】:

发明公开一种基于机器学习的自适应动态网页爬虫系统的实现方法,包括:动态网页路径选择模块根据输入信息获取所有联通的交互路径集合;动态网页路径自适应训练模块对动态网页路径选择模块输出的交互路径集合中的进行实时排序,形成交互路径列表;动态网页数据抓取模块对交互路径列表中的n条最优路径进行动态页面抓取,并将结果反馈给动态网页路径自适应训练模块,更新交互路径列表;其中,输入信息包括下列中的一个或多个:入口网页地址、目标网页地址、交互过程使用的初始输入数据、目标信息数据结构、和抓取网页范围列表。

技术领域

本发明涉及一种计算机技术,具体而言,涉及一种基于机器学习的自适应动态网页爬虫系统。

背景技术

由于动态网页具有交互性强、交互数据复杂的特点,目前的动态网页爬虫程序的编写需要软件开发人员对页面代码及交互规则进行具体的分析研究。这些分析研究的工作量随着交互过程和交互数据的复杂性增加而成倍的增加。同时,各网站页面的交互规则不同,导致针对某一网站进行的分析研究工作缺少可复用性,大大增加了动态网页爬虫程序的编写工作量。

发明内容

本发明实施例中提供一种基于机器学习的自适应动态网页爬虫系统的实现方法,以解决上述至少一个问题。

为解决上述技术问题,本发明实施例提供了一种基于机器学习的自适应动态网页爬虫系统的实现方法,包括:动态网页路径选择模块根据输入信息获取所有联通的交互路径集合;动态网页路径自适应训练模块对动态网页路径选择模块输出的交互路径集合中的进行实时排序,形成交互路径列表;动态网页数据抓取模块对交互路径列表中的n条最优路径进行动态页面抓取,并将结果反馈给动态网页路径自适应训练模块,更新交互路径列表;其中,输入信息包括下列中的一个或多个:入口网页地址、目标网页地址、交互过程使用的初始输入数据、目标信息数据结构、和抓取网页范围列表。

进一步地,联通的交互路径集合包括从入口网页地址出发、到目标网页地址截止的交互路径和网络数据交互信息。

进一步地,根据输入信息获取所有联通的交互路径集合的步骤包括:用浏览器内核,通过模拟用户行为的方式访问入口网页,同时设置并初始化操作树;用xpath、正则表达式或自定义编程的方式分析页面结构,调用浏览器内核,模拟用户行为,将初始输入数据输入至网页相应区域;通过模拟用户行为的方式进行交互操作,进入下一可达页面;并将操作源网页地址、操作目标网页地址、操作方法、网络交互接口、网络交互数据封装为一个节点,插入到操作树的相应位置。

进一步地,动态网页路径选择模块根据网页初始信息获取所有联通的交互路径集合的步骤还包括:若当前网页地址为输入信息中指定的目标网页地址,则将当前页面判定为目标网页;若当前网页地址非目标网页地址,判断下一页面的主页是否在输入信息的抓取网页范围列表中,或是否无下一可达页面;当下一页面的主页不在输入信息的抓取网页范围列表中,或无下一可达页面,则判断当前网页中是否包含具有输入信息中指定的目标信息数据结构的数据;若当前网页包含输入信息中指定的目标信息数据结构的数据,则将当前页面判定为目标网页,并将操作树中当前网页的子节点到根节点的路径加入至输入信息中。

进一步地,对动态网页路径选择模块输出的交互路径集合中的进行实时排序,形成交互路径列表的步骤包括:接收动态网页路径选择模块输出的交互路径集合以及初始配置信息、初始数据、数据抓取结果,并对输入的交互路径集合中的路径进行排序;输出排序后的交互路径列表,形成交互路径列表。

进一步地,对交互路径集合中的进行实时排序通过如下公式进行:

路径指标=(输入路径集合中最长路径长度-路径长)*ω路径长度+路径访问健壮性*ω路径访问健壮度;其中各权重ω值由初始配置信息给出,路径指标计算公式中的路径长度为输入路径所包含的节点数,路径指标与路径长度成反比,路径访问健壮性数值初始值为0。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民财产保险股份有限公司,未经中国人民财产保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610802662.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top