[发明专利]一种提取网页内容的实现方法有效
申请号: | 201210078159.6 | 申请日: | 2012-03-22 |
公开(公告)号: | CN102663023A | 公开(公告)日: | 2012-09-12 |
发明(设计)人: | 刘金玉;田宁;刘崟;谭磊 | 申请(专利权)人: | 浙江盘石信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;王利强 |
地址: | 310011 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提取 网页 内容 实现 方法 | ||
技术领域
本发明涉及计算机应用和信息抽取领域,尤其涉及一种提取网页主要内容的实现方法。
背景技术
随着Internet及其技术的迅猛发展,网络上的信息呈爆炸式增长。网络已经成为人类有史以来最为庞大的数据库,而网页已经成为Internet上最重要的信息资源。用户通常使用浏览器直接查看网页,此外,还有很多基于互联网的信息处理工作(如信息搜索、数据挖掘、机器翻译等),也以网页的信息内容为基础数据进行开展。但是,在目前的互联网环境下,一个web页面所要表达主题信息往往被大量导航链接、广告链接和版权声明等“网页噪音”所包围。如何准确、高效地提取网页的正文主题信息和标题等信息已经成为当前网络信息应用和研究领域的一个重要课题,具有很高的应用价值和实践意义。
因此,能够快速准确的提取网页的主要内容是一项基于web内容应用服务的关键技术。它不但能够提高各种基于内容服务的应用系统的准确性,还能大大的提升其工作效率,同时还更直接的减轻用户信息浏览的负担。信息抽取领域的专家一直尝试着借助计算机来解决这些与主题无关的信息带来的麻烦。
目前,关于网页正文提取方面的研究很多,从大方向来说,主要可分为两类,即基于包装器的方法以及分块的方法。
利用包装器提取网页正文是一种提出较早,也较为流行的方法,后来出现的网页模板抽取技术也属于此类。它的原理是通过构建包装器或网页模板规则,将符合规则的信息从网页信息源中提取出来。但是该方法只能针对某一类特定格式信息源,而构建它所需的信息模式识别知识的获取是一个费时费力的工作,在目前的互联网网页越来越多样化和可定制化的趋势下,这种方法不通用。
基于分块的方法分支是比较多的,比较有代表性的主要有基于纯DOM树的网页分块、基于视觉信息的网页分块(Vision-based Page Segmentation:VIPS)以及基于特定标签的网页分块。由于DOM树最早引入是为了在浏览器中进行布局显示而不是进行web页面的语义描述,在未引入补充信息之前,基于纯DOM的分块方法单凭其提供的标签层次关系是不能完全胜任内容提取工作的。基于视觉信息的网页分块利用web页面的视觉提示如背景颜色、字体颜色、字体大小、字体粗细等信息,结合DOM提供的层次结构进行页面的分块。但是由于视觉特征的复杂性,很难有一个通用的规则集。除此之外,VIPS算法还需要保存大量的视觉信息,其处理性能随着页面的复杂度急剧下降。由于早期互联网流行既定的几种布局,也有人根据<table>标签把网页分成若干个内容块。这样分块流程非常简单,但面对日益复杂的页面,处理效果往往不能令人满意。
因此,现有的方法要么算法流程过于简单,只能针对特定标签的网页风格进行内容提取;要么算法复杂度过高(基于模板的机器学习或者复杂的视觉计算),都直接导致无法实时的处理人们随机的页面访问。
发明内容
为了克服已有网页正文提取方法的不能兼顾实时性和适用性的不足,本发明提供一种适用性良好、兼有较好实时性的提取网页内容的实现方法。
本发明解决其技术问题所采用的技术方案是:
一种提取网页内容的实现方法,所述实现方法包括以下步骤:
步骤S110,对整个网页采用DOM树进行分割处理,以将网页中相关联的内容分割为至少一个布局块;
步骤S120,对网页类型进行判断,根据统计的根节点的链接总长度α、文本总长度β、链接总个数γ,定义链接密度为设定R是链接密度的阈值,T是链接总个数的阈值,如果当前的布局块的链接密度和链接总个数均大于阈值,则判定为导航页;
步骤S130,对所述布局块进行块属性的判断,如果存在主题块,根据链接密度、标点符号个数判断是否为主题页;如果不存在主题块,根据列表块的个数进行判断,若小于阈值L,对应网页就是主题页;
步骤S140,根据主题块或列表块得到主题页,并提取所需的主题页信息。
进一步,所述步骤S110中,网页进行分割处理的流程为:
步骤S210,将输入的网页进行预处理:首先将网页解析为文档对象模型树,对模型树进行处理,将注释节点和空格文本节点删除;
步骤S220,构建新的DOM树,对DOM树中节点定义所需要的语义属性:链接个数、链接长度、文本长度和无关词长度,并将标签为table的节点改为div;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江盘石信息技术有限公司,未经浙江盘石信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210078159.6/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法