[发明专利]提取网页正文内容的方法和系统无效

专利信息
申请号: 201210570193.5 申请日: 2012-12-25
公开(公告)号: CN103049536A 公开(公告)日: 2013-04-17
发明(设计)人: 王海山 申请(专利权)人: 广州汇讯营销咨询有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 广州华进联合专利商标代理有限公司 44224 代理人: 王茹
地址: 510630 广东省广州*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 提取 网页 正文 内容 方法 系统
【说明书】:

技术领域

发明涉及互联网信息处理领域,特别是涉及一种提取网页正文内容的方法和系统。

背景技术

随着互联网的迅速发展,互联网上的信息量以几何级数倍增。人们需要在海量的信息库中查找自己需要的信息,并且可能需要对获得的信息进行进一步的加工和分析。但是很多原始内容为了方便用户浏览而加入的导航链接、出于商业利益而加入的广告链接、版权信息以及相关主题阅读推荐链接等。这些信息掺杂在网页中,影响了用户对主题内容的浏览。如何从包含大量噪音内容的网页中将正文信息准确、完整地提取出来成为了研究课题。

目前常用的方案有如下两种:

第一种方式是采用RSS(简易信息聚合,也叫聚合内容,是一种描述和同步网站内容的格式)种子文件作为信息源。由于RSS种子文件通常是按照标准的RSS规范编写的,通过简单的XML解析技术即可分离出需要的标题、发布时间、正文内容等信息,例如,RSS阅读器都采用这一方式。

第二种方式是直接采用某些特定的网站的WEB页面作为信息源,根据WEB页面的编码特点开发专有的解析器来获取需要的信息。目前使用的大部分新闻阅读客户端都采用这一方式。

然而,对于第一种方式,由于很多网站并没有提供RSS种子,且很多网站即使提供了RSS种子,但为了不影响其网站的流量,种子文件中通常只包含导读内容。这就导致很多信息被排除在可选择范围之外,也可能导致用户获得的信息不完整。

对于第二种方式,这会带来大量的定制性开发,同时较为硬性的排版识别要求会因为目标网站排版的不断变化而带来许多维护性开发。而这些定制性和维护性的开发带来工作量的攀升导致它只能覆盖有限的主流网站,同样会导致许多信息被排除在可选范围之外。

因此,目前对于网页主要内容进行提取需要解决的问题是:覆盖面窄、可维护性差。

发明内容

本发明的目的在于提供一种提取网页正文内容的方法和系统,其覆盖面广、可维护性强。

本发明的目的通过如下技术方案实现:

一种提取网页正文内容的方法,包括如下步骤:

获取html源文件,并将该html源文件转化为字符流;

剔除所述字符流中的无效标签;

将剩余的标签转化为标签树,并将该标签树转换成标签队列;

对所述队列标签中的各标签进行标签处理直到队列为空,获得有效标签集;

将有效标签集转化成文本,返回为正文。

一种提取网页正文内容的系统,包括:

获取模块,用于获取html源文件,并将该html源文件转化为字符流;

过滤模块,用于剔除所述字符流中的无效标签;

标签树生成模块,用于将剩余的标签转化为标签树,并将该标签树转换成标签队列;

遍历标签队列模块,用于对所述队列标签中的各标签进行标签处理直到队列为空,获得有效标签集;

正文确定模块,用于将有效标签集转化成文本,返回为正文。

依据上述本发明的方案,其是在获取html源文件,并将该html源文件转化为字符流后,剔除该字符流中的无效标签,再将剩余的标签转化为标签树,并将该标签树转换成标签队列,对所述队列标签中的各标签进行标签处理获得有效标签集,将有效标签集转化成文本,返回为正文,由于在整个处理过程中,仅仅是从html标签层面处理html源文件,而未借助其他层面的信息,具有很高的通用性,覆盖面广,即使网页结果复杂,含有多种干扰信息,也能有效的提取网页的正文部分,针对性强,同时定制性开发少,可维护性强。

附图说明

图1为本发明提取网页正文内容的方法实施例的流程示意图;

图2为本发明提取网页正文内容的系统实施例的结构示意图;

图3为应用本发明提取网页正文内容前的原始网页;

图4为应用本发明提取网页正文内容的结果示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步阐述,但本发明的实现方式不限于此。

参见图1所示,为本发明的提取网页正文内容的方法实施例的流程示意图。如图1所示,该实施例中的提取网页正文内容的方法包括如下步骤:

步骤S101:获取html源文件,并将该html源文件转化为字符流,进入步骤S102;

步骤S102:剔除所述字符流中的无效标签,进入步骤S103;

步骤S103:将剩余的标签转化为标签树,并将该标签树转换成标签队列,进入步骤S104;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州汇讯营销咨询有限公司,未经广州汇讯营销咨询有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210570193.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top