[发明专利]一种Web页面逻辑链接块的识别方法有效
申请号: | 201410186981.3 | 申请日: | 2014-05-05 |
公开(公告)号: | CN103942332B | 公开(公告)日: | 2017-02-22 |
发明(设计)人: | 王贤明;谷琼;朱莉 | 申请(专利权)人: | 温州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙)42222 | 代理人: | 张火春 |
地址: | 325035 浙江省温州市瓯海*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 web 页面 逻辑 链接 识别 方法 | ||
技术领域
本发明涉及Web页面识别技术领域,应用于网页正文抽取、链接分析统计或非物理链接块分析的相关场合,尤其涉及Web页面逻辑链接块的识别方法。
背景技术
万维网是一个通过页面之间的链接构建起来的超大型复杂网络。链接在Web信息组织和展示、页面导航等方面发挥着巨大的作用。网络爬虫依靠Web页面之间的链接实现互联网的遍历爬行,互联网用户正是依靠页面之间的链接实现同主题内容的“聚合”阅读。Web页面中的链接往往以不同的粒度块来组织,块粒度越精细则所含链接的主题相关性越高;随着块粒度的增大,链接块的主题“内聚”性逐渐减弱。在针对链接块的相关研究中,根据研究目的不同,对链接块的粒度精细要求也将不同。在针对链接块的相关研究中,根据研究目的不同,对链接块的粒度精细要求也将不同。在专门针对链接块进行分析的研究中,对链接块粒度的要求往往较为精细,如特定主题链接提取;而在其他非链接块研究中,则对链接块的粒度要求不高,如Web页面文本提取。
在技术实现上,视觉上的分块往往也对应着块(block)级标签元素(Block-level elements)[1],目前涉及链接块相关的应用和研究基本仅针对该实现方式。然而,由于网页设计技术和实现的多样性,视觉上的分块,在实现方式上并不总是采用block类型标签实现,也有可能采用内联类型标签(inline elements)实现,这也就意味着无法准确的预知设计者使用何种方式实现链接块,或者需要建立在对HTML标签属性的精细解析基础之上,这给基于海量Web数据的一些自动化应用带来了诸多麻烦。
Web页面链接块的研究历史悠久,对Web页面进行分块或者信息提取的方法众多,Sumaia Mohammed AL-Ghuribi[2]将Web页面的抽取方法总结为基于Wrapper、模板、机器学习、视觉布局特征、HTML特征等五类,这五类方法同样适用于Web页面链接块的分块,其中Wrapper和模板法的通用性较差,且一般需要人工参与,并需要更新维护,极为耗时费力,鉴于此,Junfeng Wang,Jun He等提出了无需模板支持或人工监督的Wrapper算法[3]、[4]、[5],并取得较好的效果;PETERS M提出的机器学习的方法需要借助合适的训练集和适量的特征[6],且难以完全脱离人工监督;利用视觉布局特征的方法的典型代表即VIPS[7],该方法虽然准确率较高,但是对网页的解析要求过于精细,计算消耗大,面对大量非规范化的网页时健壮性难以保证,且在当前普遍采用CSS[8]来控制各页面标签的视觉呈现效果的情况下,还需要另行解析相关CSS,最终导致解析任务量大,程序健壮性欠缺;基于HTML特征的相关方法多偏向一些启发式规则[9]或一些统计规律,通用性有待提高。此外,也有研究者提出其他的一些方法,例如利用模糊神经网络实现页面分块的方法[10],MSS页面分块方法[11]等。虽然相关研究方法多种多样,各有千秋,然而经过分析总结可以发现:目前关于Web页面链接块的发现和识别相关算法基本都是基于标签树[12][13][14][15][16],而DOM[17]是一种构建标签树最为常见的方式,其他方法也基本都以HTML标签树或DOM为基础[18][19]。
此外,在对Web页面进行分块的相关研究中,有相当一部分研究基本仅仅针对块级层次的HTML标签元素,如div、table、tr、td等,其中由于table功能的多样性和强劲性[20],早期网页布局、修饰和内容组织几乎对table不可或缺,相应的,部分研究也仅考虑了针对table布局的网页[21],且未能很好的区分用于布局的table和用于内容组织的table。Son专门研究基于table设计的网页,对table的两种作用做了区分并分别识别,实验证明该方法具有一定的先进性。但仅针对table的处理方式局限性还较大,目前的网页设计基本都是table和div共存,Uzun[22]同时考虑这两种情况,先根据div和td获得分块信息,其次结合决策树生成抽取规则,取得较好的效果,特别是在抽取速度上获得了和手工规则相当的性能;Wang[23]则提出BSU概念,并基于此采用聚类和启发式规则两种方法实现页面信息抽取,比采用基于div和table的方法结果更理想。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于温州大学,未经温州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410186981.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种酒蒸雅连的加工方法
- 下一篇:甲硝唑硝酸咪康唑复方阴道泡腾片及制备方法