[发明专利]一种网络爬虫的页面列表信息自动提取方法及系统有效
申请号: | 202010222132.4 | 申请日: | 2020-03-26 |
公开(公告)号: | CN111444407B | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 姜建武;李景文;陆妍玲 | 申请(专利权)人: | 桂林理工大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/957 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 刘凤玲 |
地址: | 541004 广西壮*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 爬虫 页面 列表 信息 自动 提取 方法 系统 | ||
1.一种网络爬虫的页面列表信息自动提取方法,其特征在于,包括:
获取待提取的页面的超文本标记语言文档;
根据所述超文本标记语言文档中的元素确定超文本标记语言对象集合;所述元素包括超文本标记语言文档的标签、属性和文本;
对所述超文本标记语言对象集合进行遍历,确定文档对象模型;
根据所述文档对象模型确定所述待提取的页面的网页结构;所述网页结构包括列表项和列表项属性;
根据所述待提取的页面的网页结构确定提取模式;
利用所述提取模式对所述待提取的页面列表信息进行提取;
所述获取待提取的页面的超文本标记语言文档,之前还包括:
判断所述待提取的页面是否改版,得到第一判断结果;
若所述第一判断结果表示所述待提取的页面改版,则执行所述获取待提取的页面的超文本标记语言文档的步骤;
若所述第一判断结果表示所述待提取的页面没有改版,则直接按照未改版时对应的提取模式对所述待提取的页面列表信息进行提取;
所述根据所述文档对象模型确定所述待提取的页面的网页结构,具体包括:
根据所述文档对象模型确定所述待提取的页面中每一个属性的标签的数量和所有属性的标签的数量;
确定所述待提取的页面中每一个属性的每一标签出现次数的比重,得到单一比重集合;
确定所述待提取的页面中标签属性组合的比重,得到组合比重集合;
按照标签属性出现的频次对所述单一比重集合和所述组合比重集合进行降序排列,得到列表项;所述列表项的属性为多个单标签属性出现的比重均与组合比重集合中组合标签属性出现的比重相等的标签属性;
根据所述文档对象模型确定所述待提取的页面中所有的文档对象链;
以所述列表项对应的标签属性组合为起始截取每一个所述文档对象链;
计算每一个截取之后的所述文档对象链出现的频次;
对每一个截取之后的所述文档对象链出现的频次进行降序排列,确定列表项属性。
2.根据权利要求1所述的一种网络爬虫的页面列表信息自动提取方法,其特征在于,所述对所述超文本标记语言对象集合进行遍历,确定文档对象模型,具体包括:
对所述超文本标记语言对象集合进行遍历,确定所有对象间的关系;所有所述对象间的关系包括对象间的同级关系、包含关系、父级关系、子级关系、层级关系的高度和深度;
根据所述所有对象间的关系确定所述文档对象模型。
3.根据权利要求1所述的一种网络爬虫的页面列表信息自动提取方法,其特征在于,所述以所述列表项对应的标签属性组合为起始截取每一个所述文档对象链,之前还包括:
判断所述文档对象链是否含有所述列表项对应的标签属性组合,得到第二判断结果;
若所述第二判断结果表示所述文档对象链含有所述列表项对应的标签属性组合,则保留所述文档对象链,并以所述列表项对应的标签属性组合为起始截取每一个所述文档对象链;
若所述第二判断结果表示所述文档对象链不含有所述列表项对应的标签属性组合,则剔除所述文档对象链。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林理工大学,未经桂林理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010222132.4/1.html,转载请声明来源钻瓜专利网。