[发明专利]一种网络爬虫的页面列表信息自动提取方法及系统有效
申请号: | 202010222132.4 | 申请日: | 2020-03-26 |
公开(公告)号: | CN111444407B | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 姜建武;李景文;陆妍玲 | 申请(专利权)人: | 桂林理工大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/957 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 刘凤玲 |
地址: | 541004 广西壮*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种网络爬虫的页面列表信息自动提取方法及系统。该方法包括:获取待提取的页面的超文本标记语言文档;根据所述超文本标记语言文档中的元素确定超文本标记语言对象集合;对所述超文本标记语言对象集合进行遍历,确定文档对象模型;根据所述文档对象模型确定所述待提取的页面的网页结构;所述网页结构包括列表项和列表项属性;根据所述待提取的页面的网页结构确定提取模式;利用所述提取模式对所述待提取的页面列表信息进行提取。本发明所提供的一种网络爬虫的页面列表信息自动提取方法及系统,实现网络爬虫页面列表信息自动抓取。 | ||
搜索关键词: | 一种 网络 爬虫 页面 列表 信息 自动 提取 方法 系统 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林理工大学,未经桂林理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202010222132.4/,转载请声明来源钻瓜专利网。