[发明专利]基于机器学习的自适应动态网页爬虫系统的实现方法有效

专利信息
申请号: 201610802662.X 申请日: 2016-09-05
公开(公告)号: CN106775611B 公开(公告)日: 2020-02-18
发明(设计)人: 刘序文;王鹏;王和;邵利铎;刘苍牧;孙杰平;刘晗;李宏宇 申请(专利权)人: 中国人民财产保险股份有限公司
主分类号: G06F8/20 分类号: G06F8/20;G06N20/00
代理公司: 北京众达德权知识产权代理有限公司 11570 代理人: 刘杰
地址: 100000 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 机器 学习 自适应 动态 网页 爬虫 系统 实现 方法
【权利要求书】:

1.一种基于机器学习的自适应动态网页爬虫系统的实现方法,其特征在于,包括:

动态网页路径选择模块根据输入信息获取所有联通的交互路径集合;

动态网页路径自适应训练模块对所述动态网页路径选择模块输出的所述交互路径集合中的进行实时排序,形成交互路径列表;

动态网页数据抓取模块对所述交互路径列表中的n条最优路径进行动态页面抓取,并将结果反馈给动态网页路径自适应训练模块,更新所述交互路径列表;

其中,所述输入信息包括下列中的一个或多个:入口网页地址、目标网页地址、交互过程使用的初始输入数据、目标信息数据结构、和抓取网页范围列表;

所述联通的交互路径集合包括从入口网页地址出发、到目标网页地址截止的交互路径和网络数据交互信息;

所述根据输入信息获取所有联通的交互路径集合的步骤包括:

用浏览器内核,通过模拟用户行为的方式访问入口网页,同时设置并初始化操作树;

用xpath、正则表达式或自定义编程的方式分析页面结构,调用浏览器内核,模拟用户行为,将初始输入数据输入至网页相应区域;

通过模拟用户行为的方式进行交互操作,进入下一可达页面;并将操作源网页地址、操作目标网页地址、操作方法、网络交互接口、网络交互数据封装为一个节点,插入到操作树的相应位置。

2.根据权利要求1所述的自适应动态网页爬虫系统的实现方法,其特征在于,所述动态网页路径选择模块根据网页初始信息获取所有联通的交互路径集合的步骤还包括:

若当前网页地址为所述输入信息中指定的目标网页地址,则将当前页面判定为目标网页;

若当前网页地址非目标网页地址,判断下一页面的主页是否在所述输入信息的抓取网页范围列表中,或是否无下一可达页面;

当下一页面的主页不在所述输入信息的抓取网页范围列表中,或无下一可达页面,则判断所述当前网页中是否包含具有输入信息中指定的目标信息数据结构的数据;

若当前网页包含所述输入信息中指定的目标信息数据结构的数据,则将当前页面判定为目标网页,并将操作树中当前网页的子节点到根节点的路径加入至所述输入信息中。

3.根据权利要求1至2中任一项所述的自适应动态网页爬虫系统的实现方法,其特征在于,所述对所述动态网页路径选择模块输出的所述交互路径集合中的进行实时排序,形成交互路径列表的步骤包括:

接收所述动态网页路径选择模块输出的所述交互路径集合以及初始配置信息、初始数据、数据抓取结果,并对输入的交互路径集合中的路径进行排序;

输出排序后的交互路径列表,形成交互路径列表。

4.根据权利要求3所述的自适应动态网页爬虫系统的实现方法,其特征在于,对所述交互路径集合中的进行实时排序通过如下公式进行:

路径指标=(输入路径集合中最长路径长度-路径长)*ω路径长度+路径访问健壮性*ω路径访问健壮度

其中各权重ω值由初始配置信息给出,路径指标计算公式中的路径长度为输入路径所包含的节点数,路径指标与路径长度成反比,所述路径访问健壮性数值初始值为0。

5.根据权利要求4所述的自适应动态网页爬虫系统的实现方法,其特征在于,更新所述交互路径列表包括:

所述动态网页数据抓取模块从动态网页路径自适应训练模块获取排序后的交互路径列表,选择最优的n条交互路径进行动态网页抓取;

所述动态网页数据抓取模块将数据抓取结果输入所述动态网页路径自适应训练模块,所述动态网页路径自适应训练模块判断结果可达性及结果有效性,根据结果数据计算出该结果对应的路径的所述访问健壮性数值;

所述动态网页数据抓取模块根据所述访问健壮性数值更新所述路径指标,并对路径列表重新排序,形成新的交互路径列表。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民财产保险股份有限公司,未经中国人民财产保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610802662.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top