[发明专利]一种Web页面逻辑链接块的识别方法有效

申请号：	201410186981.3	申请日：	2014-05-05
公开（公告）号：	CN103942332B	公开（公告）日：	2017-02-22
发明（设计）人：	王贤明;谷琼;朱莉	申请（专利权）人：	温州大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙)42222	代理人：	张火春
地址：	325035 浙江省温州市瓯海***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种 web 页面逻辑链接识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及Web页面识别技术领域，应用于网页正文抽取、链接分析统计或非物理链接块分析的相关场合，尤其涉及Web页面逻辑链接块的识别方法。

背景技术

万维网是一个通过页面之间的链接构建起来的超大型复杂网络。链接在Web信息组织和展示、页面导航等方面发挥着巨大的作用。网络爬虫依靠Web页面之间的链接实现互联网的遍历爬行，互联网用户正是依靠页面之间的链接实现同主题内容的“聚合”阅读。Web页面中的链接往往以不同的粒度块来组织，块粒度越精细则所含链接的主题相关性越高；随着块粒度的增大，链接块的主题“内聚”性逐渐减弱。在针对链接块的相关研究中，根据研究目的不同，对链接块的粒度精细要求也将不同。在针对链接块的相关研究中，根据研究目的不同，对链接块的粒度精细要求也将不同。在专门针对链接块进行分析的研究中，对链接块粒度的要求往往较为精细，如特定主题链接提取；而在其他非链接块研究中，则对链接块的粒度要求不高，如Web页面文本提取。

在技术实现上，视觉上的分块往往也对应着块(block)级标签元素(Block-level elements)[1]，目前涉及链接块相关的应用和研究基本仅针对该实现方式。然而，由于网页设计技术和实现的多样性，视觉上的分块，在实现方式上并不总是采用block类型标签实现，也有可能采用内联类型标签(inline elements)实现，这也就意味着无法准确的预知设计者使用何种方式实现链接块，或者需要建立在对HTML标签属性的精细解析基础之上，这给基于海量Web数据的一些自动化应用带来了诸多麻烦。

Web页面链接块的研究历史悠久，对Web页面进行分块或者信息提取的方法众多，Sumaia Mohammed AL-Ghuribi[2]将Web页面的抽取方法总结为基于Wrapper、模板、机器学习、视觉布局特征、HTML特征等五类，这五类方法同样适用于Web页面链接块的分块，其中Wrapper和模板法的通用性较差，且一般需要人工参与，并需要更新维护，极为耗时费力，鉴于此，Junfeng Wang,Jun He等提出了无需模板支持或人工监督的Wrapper算法[3]、[4]、[5]，并取得较好的效果；PETERS M提出的机器学习的方法需要借助合适的训练集和适量的特征[6]，且难以完全脱离人工监督；利用视觉布局特征的方法的典型代表即VIPS[7]，该方法虽然准确率较高，但是对网页的解析要求过于精细，计算消耗大，面对大量非规范化的网页时健壮性难以保证，且在当前普遍采用CSS[8]来控制各页面标签的视觉呈现效果的情况下，还需要另行解析相关CSS，最终导致解析任务量大，程序健壮性欠缺；基于HTML特征的相关方法多偏向一些启发式规则[9]或一些统计规律，通用性有待提高。此外，也有研究者提出其他的一些方法，例如利用模糊神经网络实现页面分块的方法[10]，MSS页面分块方法[11]等。虽然相关研究方法多种多样，各有千秋，然而经过分析总结可以发现：目前关于Web页面链接块的发现和识别相关算法基本都是基于标签树[12][13][14][15][16]，而DOM[17]是一种构建标签树最为常见的方式，其他方法也基本都以HTML标签树或DOM为基础[18][19]。

此外，在对Web页面进行分块的相关研究中，有相当一部分研究基本仅仅针对块级层次的HTML标签元素，如div、table、tr、td等，其中由于table功能的多样性和强劲性[20]，早期网页布局、修饰和内容组织几乎对table不可或缺，相应的，部分研究也仅考虑了针对table布局的网页[21]，且未能很好的区分用于布局的table和用于内容组织的table。Son专门研究基于table设计的网页，对table的两种作用做了区分并分别识别，实验证明该方法具有一定的先进性。但仅针对table的处理方式局限性还较大，目前的网页设计基本都是table和div共存，Uzun[22]同时考虑这两种情况，先根据div和td获得分块信息，其次结合决策树生成抽取规则，取得较好的效果，特别是在抽取速度上获得了和手工规则相当的性能；Wang[23]则提出BSU概念，并基于此采用聚类和启发式规则两种方法实现页面信息抽取，比采用基于div和table的方法结果更理想。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于温州大学，未经温州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410186981.3/2.html，转载请声明来源钻瓜专利网。

上一篇：一种酒蒸雅连的加工方法
下一篇：甲硝唑硝酸咪康唑复方阴道泡腾片及制备方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种Web页面逻辑链接块的识别方法有效

专利文献下载