[发明专利]一种Web页面逻辑链接块的识别方法有效

专利信息
申请号: 201410186981.3 申请日: 2014-05-05
公开(公告)号: CN103942332B 公开(公告)日: 2017-02-22
发明(设计)人: 王贤明;谷琼;朱莉 申请(专利权)人: 温州大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙)42222 代理人: 张火春
地址: 325035 浙江省温州市瓯海*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 web 页面 逻辑 链接 识别 方法
【说明书】:

技术领域

发明涉及Web页面识别技术领域,应用于网页正文抽取、链接分析统计或非物理链接块分析的相关场合,尤其涉及Web页面逻辑链接块的识别方法。

背景技术

万维网是一个通过页面之间的链接构建起来的超大型复杂网络。链接在Web信息组织和展示、页面导航等方面发挥着巨大的作用。网络爬虫依靠Web页面之间的链接实现互联网的遍历爬行,互联网用户正是依靠页面之间的链接实现同主题内容的“聚合”阅读。Web页面中的链接往往以不同的粒度块来组织,块粒度越精细则所含链接的主题相关性越高;随着块粒度的增大,链接块的主题“内聚”性逐渐减弱。在针对链接块的相关研究中,根据研究目的不同,对链接块的粒度精细要求也将不同。在针对链接块的相关研究中,根据研究目的不同,对链接块的粒度精细要求也将不同。在专门针对链接块进行分析的研究中,对链接块粒度的要求往往较为精细,如特定主题链接提取;而在其他非链接块研究中,则对链接块的粒度要求不高,如Web页面文本提取。

在技术实现上,视觉上的分块往往也对应着块(block)级标签元素(Block-level elements)[1],目前涉及链接块相关的应用和研究基本仅针对该实现方式。然而,由于网页设计技术和实现的多样性,视觉上的分块,在实现方式上并不总是采用block类型标签实现,也有可能采用内联类型标签(inline elements)实现,这也就意味着无法准确的预知设计者使用何种方式实现链接块,或者需要建立在对HTML标签属性的精细解析基础之上,这给基于海量Web数据的一些自动化应用带来了诸多麻烦。

Web页面链接块的研究历史悠久,对Web页面进行分块或者信息提取的方法众多,Sumaia Mohammed AL-Ghuribi[2]将Web页面的抽取方法总结为基于Wrapper、模板、机器学习、视觉布局特征、HTML特征等五类,这五类方法同样适用于Web页面链接块的分块,其中Wrapper和模板法的通用性较差,且一般需要人工参与,并需要更新维护,极为耗时费力,鉴于此,Junfeng Wang,Jun He等提出了无需模板支持或人工监督的Wrapper算法[3]、[4]、[5],并取得较好的效果;PETERS M提出的机器学习的方法需要借助合适的训练集和适量的特征[6],且难以完全脱离人工监督;利用视觉布局特征的方法的典型代表即VIPS[7],该方法虽然准确率较高,但是对网页的解析要求过于精细,计算消耗大,面对大量非规范化的网页时健壮性难以保证,且在当前普遍采用CSS[8]来控制各页面标签的视觉呈现效果的情况下,还需要另行解析相关CSS,最终导致解析任务量大,程序健壮性欠缺;基于HTML特征的相关方法多偏向一些启发式规则[9]或一些统计规律,通用性有待提高。此外,也有研究者提出其他的一些方法,例如利用模糊神经网络实现页面分块的方法[10],MSS页面分块方法[11]等。虽然相关研究方法多种多样,各有千秋,然而经过分析总结可以发现:目前关于Web页面链接块的发现和识别相关算法基本都是基于标签树[12][13][14][15][16],而DOM[17]是一种构建标签树最为常见的方式,其他方法也基本都以HTML标签树或DOM为基础[18][19]。

此外,在对Web页面进行分块的相关研究中,有相当一部分研究基本仅仅针对块级层次的HTML标签元素,如div、table、tr、td等,其中由于table功能的多样性和强劲性[20],早期网页布局、修饰和内容组织几乎对table不可或缺,相应的,部分研究也仅考虑了针对table布局的网页[21],且未能很好的区分用于布局的table和用于内容组织的table。Son专门研究基于table设计的网页,对table的两种作用做了区分并分别识别,实验证明该方法具有一定的先进性。但仅针对table的处理方式局限性还较大,目前的网页设计基本都是table和div共存,Uzun[22]同时考虑这两种情况,先根据div和td获得分块信息,其次结合决策树生成抽取规则,取得较好的效果,特别是在抽取速度上获得了和手工规则相当的性能;Wang[23]则提出BSU概念,并基于此采用聚类和启发式规则两种方法实现页面信息抽取,比采用基于div和table的方法结果更理想。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于温州大学,未经温州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410186981.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top