[发明专利]提取网页正文内容的方法和系统无效
申请号: | 201210570193.5 | 申请日: | 2012-12-25 |
公开(公告)号: | CN103049536A | 公开(公告)日: | 2013-04-17 |
发明(设计)人: | 王海山 | 申请(专利权)人: | 广州汇讯营销咨询有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 王茹 |
地址: | 510630 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提取 网页 正文 内容 方法 系统 | ||
技术领域
本发明涉及互联网信息处理领域,特别是涉及一种提取网页正文内容的方法和系统。
背景技术
随着互联网的迅速发展,互联网上的信息量以几何级数倍增。人们需要在海量的信息库中查找自己需要的信息,并且可能需要对获得的信息进行进一步的加工和分析。但是很多原始内容为了方便用户浏览而加入的导航链接、出于商业利益而加入的广告链接、版权信息以及相关主题阅读推荐链接等。这些信息掺杂在网页中,影响了用户对主题内容的浏览。如何从包含大量噪音内容的网页中将正文信息准确、完整地提取出来成为了研究课题。
目前常用的方案有如下两种:
第一种方式是采用RSS(简易信息聚合,也叫聚合内容,是一种描述和同步网站内容的格式)种子文件作为信息源。由于RSS种子文件通常是按照标准的RSS规范编写的,通过简单的XML解析技术即可分离出需要的标题、发布时间、正文内容等信息,例如,RSS阅读器都采用这一方式。
第二种方式是直接采用某些特定的网站的WEB页面作为信息源,根据WEB页面的编码特点开发专有的解析器来获取需要的信息。目前使用的大部分新闻阅读客户端都采用这一方式。
然而,对于第一种方式,由于很多网站并没有提供RSS种子,且很多网站即使提供了RSS种子,但为了不影响其网站的流量,种子文件中通常只包含导读内容。这就导致很多信息被排除在可选择范围之外,也可能导致用户获得的信息不完整。
对于第二种方式,这会带来大量的定制性开发,同时较为硬性的排版识别要求会因为目标网站排版的不断变化而带来许多维护性开发。而这些定制性和维护性的开发带来工作量的攀升导致它只能覆盖有限的主流网站,同样会导致许多信息被排除在可选范围之外。
因此,目前对于网页主要内容进行提取需要解决的问题是:覆盖面窄、可维护性差。
发明内容
本发明的目的在于提供一种提取网页正文内容的方法和系统,其覆盖面广、可维护性强。
本发明的目的通过如下技术方案实现:
一种提取网页正文内容的方法,包括如下步骤:
获取html源文件,并将该html源文件转化为字符流;
剔除所述字符流中的无效标签;
将剩余的标签转化为标签树,并将该标签树转换成标签队列;
对所述队列标签中的各标签进行标签处理直到队列为空,获得有效标签集;
将有效标签集转化成文本,返回为正文。
一种提取网页正文内容的系统,包括:
获取模块,用于获取html源文件,并将该html源文件转化为字符流;
过滤模块,用于剔除所述字符流中的无效标签;
标签树生成模块,用于将剩余的标签转化为标签树,并将该标签树转换成标签队列;
遍历标签队列模块,用于对所述队列标签中的各标签进行标签处理直到队列为空,获得有效标签集;
正文确定模块,用于将有效标签集转化成文本,返回为正文。
依据上述本发明的方案,其是在获取html源文件,并将该html源文件转化为字符流后,剔除该字符流中的无效标签,再将剩余的标签转化为标签树,并将该标签树转换成标签队列,对所述队列标签中的各标签进行标签处理获得有效标签集,将有效标签集转化成文本,返回为正文,由于在整个处理过程中,仅仅是从html标签层面处理html源文件,而未借助其他层面的信息,具有很高的通用性,覆盖面广,即使网页结果复杂,含有多种干扰信息,也能有效的提取网页的正文部分,针对性强,同时定制性开发少,可维护性强。
附图说明
图1为本发明提取网页正文内容的方法实施例的流程示意图;
图2为本发明提取网页正文内容的系统实施例的结构示意图;
图3为应用本发明提取网页正文内容前的原始网页;
图4为应用本发明提取网页正文内容的结果示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步阐述,但本发明的实现方式不限于此。
参见图1所示,为本发明的提取网页正文内容的方法实施例的流程示意图。如图1所示,该实施例中的提取网页正文内容的方法包括如下步骤:
步骤S101:获取html源文件,并将该html源文件转化为字符流,进入步骤S102;
步骤S102:剔除所述字符流中的无效标签,进入步骤S103;
步骤S103:将剩余的标签转化为标签树,并将该标签树转换成标签队列,进入步骤S104;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州汇讯营销咨询有限公司,未经广州汇讯营销咨询有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210570193.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于车辆操作的效率得分跟踪器
- 下一篇:用于I/O流量的一致性开关
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法