[发明专利]一种自动抽取列表页的方法有效
申请号: | 201810959317.6 | 申请日: | 2018-08-22 |
公开(公告)号: | CN109144513B | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 庞一文 | 申请(专利权)人: | 上海嘉道信息技术有限公司 |
主分类号: | G06F8/40 | 分类号: | G06F8/40 |
代理公司: | 北京唯智勤实知识产权代理事务所(普通合伙) 11557 | 代理人: | 朱春野 |
地址: | 201821 上海市嘉定区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种自动抽取列表页的方法,包括以下步骤:将网页源码解析成dom树;提取dom树中带有文字的元素节点路径;元素节点的位置信息打分和滤除;提取节点的相似指纹;提取节点块的深度指纹;提取标题和地址链接的相似指纹;抽取列表页,将封装结果返回。本发明能够适用于大量的互联网网站列表页抽取,对大量列表页都具有普适性,因此即使出现了网站改版,基于网页结构的抽取方式依旧可以生效,节省了重新编写抽取规则和维护规则所产生来的时间成本和人力成本。在基于网页的结构抽取算法中,还增加了网页上元素的位置像素信息作为特征,更加符合人对于列表页的感官判断,使得抽取结果更加符合目标。 | ||
搜索关键词: | 一种 自动 抽取 列表 方法 | ||
【主权项】:
1.一种自动抽取列表页的方法,其特征在于:包括以下步骤:(1)dom树的生成:获取待采集网站的网页源码;将所述网页源码解析成dom树;根据dom树进行前序遍历,记录所述dom树中各叶子元素的节点路径;提取并保存带有文字的元素节点路径;(2)获取步骤(1)中提取的带有文字的元素节点的位置信息,根据所述元素节点的位置信息进行打分,并滤除不符合列表页视觉可能性的元素节点;(3)根据节点路径的相似度和与符合列表页信息约束条件的节点特征的相似度判断多个节点之间是否具有相似指纹,将具有相似指纹的节点分类聚合,其中,所述列表页信息至少包括标题和地址链接,所述相似指纹是指不同的节点之间均符合构成列表页信息的某个约束条件;(4)将具有多个相似指纹且所述相似指纹能够构成完整列表页信息的多个节点分类聚合成节点块,构成列表页的深度指纹;(5)从所述列表页的深度指纹中提取标题和地址链接的相似指纹;(6)抽取列表页,将封装结果返回。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海嘉道信息技术有限公司,未经上海嘉道信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810959317.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种生成API的方法和系统
- 下一篇:JSON格式数据解析存储方法及装置