[发明专利]基于机器学习的自适应动态网页爬虫系统的实现方法有效
申请号: | 201610802662.X | 申请日: | 2016-09-05 |
公开(公告)号: | CN106775611B | 公开(公告)日: | 2020-02-18 |
发明(设计)人: | 刘序文;王鹏;王和;邵利铎;刘苍牧;孙杰平;刘晗;李宏宇 | 申请(专利权)人: | 中国人民财产保险股份有限公司 |
主分类号: | G06F8/20 | 分类号: | G06F8/20;G06N20/00 |
代理公司: | 北京众达德权知识产权代理有限公司 11570 | 代理人: | 刘杰 |
地址: | 100000 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于机器学习的自适应动态网页爬虫系统的实现方法,包括:动态网页路径选择模块根据输入信息获取所有联通的交互路径集合;动态网页路径自适应训练模块对动态网页路径选择模块输出的交互路径集合中的进行实时排序,形成交互路径列表;动态网页数据抓取模块对交互路径列表中的n条最优路径进行动态页面抓取,并将结果反馈给动态网页路径自适应训练模块,更新交互路径列表;其中,输入信息包括下列中的一个或多个:入口网页地址、目标网页地址、交互过程使用的初始输入数据、目标信息数据结构、和抓取网页范围列表。 | ||
搜索关键词: | 基于 机器 学习 自适应 动态 网页 爬虫 系统 实现 方法 | ||
【主权项】:
一种基于机器学习的自适应动态网页爬虫系统的实现方法,其特征在于,包括:动态网页路径选择模块根据输入信息获取所有联通的交互路径集合;动态网页路径自适应训练模块对所述动态网页路径选择模块输出的所述交互路径集合中的进行实时排序,形成交互路径列表;动态网页数据抓取模块对所述交互路径列表中的n条最优路径进行动态页面抓取,并将结果反馈给动态网页路径自适应训练模块,更新所述交互路径列表;其中,所述输入信息包括下列中的一个或多个:入口网页地址、目标网页地址、交互过程使用的初始输入数据、目标信息数据结构、和抓取网页范围列表。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民财产保险股份有限公司,未经中国人民财产保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610802662.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种转杯纺纱机的断纱感应器按钮组件
- 下一篇:一种机械按钮