[发明专利]一种文章类型网页智能抽取系统及其方法有效

专利信息
申请号: 201110455156.5 申请日: 2011-12-31
公开(公告)号: CN102567530A 公开(公告)日: 2012-07-11
发明(设计)人: 吴华鹏;曾明;厉锟 申请(专利权)人: 凤凰在线(北京)信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 北京瑞思知识产权代理事务所(普通合伙) 11341 代理人: 李涛
地址: 100029 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文章 类型 网页 智能 抽取 系统 及其 方法
【说明书】:

技术领域

本发明涉及一种在互联网中进行文章实时智能抓取的系统及其方法,可以应用于需要大规模精准、实时地抓取文章的门户网站、搜索引擎网站等互联网领域。

背景技术

互联网门户类网站每天都有大量的文章转载需求,并且对文章的质量要求很高。现有很多抓取系统可以满足这个需求,但是它们都困扰于下面三个问题:

1)采用机器自动生成抽取包装器技术的抓取系统可以大量抓取文章,但是无法做到文章的精准抽取,抓取文章的可用性低;

2)采用人工生成抽取包装器技术的抓取系统文章抽取结果精准,但是要对互联网上千个网站进行抽取包装器的生成和更新维护工作,普通垂直爬虫无法很好担负这一工作,只能依赖大量的人力参与;

3)安全、高效的实时抓取技术。在要求高实时性抓取的时候,需要对抓取网站服务器频繁的发起链接和下载请求,这将会给对方服务器造成很大的压力,进而会导致对方采用封禁策略如拒绝访问等来保证服务器正常工作,这将导致抓取失败。同时高实时的抓取需求,非常耗费网络、服务器等硬件资源,导致成本上升。

本发明专利较好的解决了上述问题。

本发明专利还具有更多传统抓取系统没有的优点:

通过同站学习可以自动将网站中非文章页面比如频道页、专题页、列表页、广告页过滤;

可以对抓取文章进行近似文档排重;

可以对抓取文章进行语义理解,自动分类,自动生成摘要和关键词;

可以准确寻找某文章数目50以内的分页序列并对分页内容进行顺序合并;

可以对网站抓取范围进行灵活配置。支持抓取网站、频道、任意页面上一个或多个列表区域所属的文章。

在实际应用中,本抓取系统转载文章质量很高,可以直接对外发布面向用户,同时自动适应上千个抓取网站的模版变化,极大的减少了抓取需要的人力参与,在大面积改善门户类网站的新闻覆盖度和实时性同时,也降低了门户类网站的人力成本。

在所有门户类网站中,本专利都有应用场景,可以有效改善其新闻的覆盖度和实时性,同时降低人力成本。

同时新闻类搜索引擎中,本专利也可以应用。

信息抽取领域现在有很多技术方案,核心都是如何生成和维护抽取包装器。技术上主要分下面两类:

1)采用机器自动生成抽取包装器技术的抽取系统可以大量抓取文章,但是无法做到文章的精准抽取,抓取文章的可用性低;

2)采用人工生成抽取包装器技术的抽取系统,文章抽取结果精准,但是要对互联网上千个网站进行抽取包装器的生成和更新维护工作,只能依赖大量的人力参与;

本发明专利的抽取模块以自主研发的“基于同站学习和自动规则生成的文章自动抽取”方法为核心,很好地解决了上面两个问题。

在实际应用中,本技术方案实现了抽取包装器的机器自动生成和维护,使抽取不需要大量的人力参与;同时还实现了文章的精准抽取,抽取结果很少冗余和遗漏,可用性很高。

本发明中涉及一下技术术语,解释如下:

抽取包装器:网页信息抽取是信息抽取中的一类,网页信息抽取的包装器生成技术目前发展成为一个较为独立的领域。包装器是由一系列抽取规则以及应用这些规则的计算机代码组成的,专门从特定信息源中抽取需要的信息并返回结果的程序;

基于同站学习和自动规则生成的文章自动抽取方法:本发明包含的一个包装器自动生成方法,可以精准智能的从网页中抽取出文章信息;

同站学习:按网站为单位,收集一个网站足够量的网页,一起进行机器统计学习,进而从中生成需要的规则;

爬虫(或者抓取爬虫):抓取系统中单独指负责网页下载的模块;

本系统研发的抽取包装器包括两个库:

Style树或者路径库

Style的集合库。Style指的是某个DOM节点在DOM树中进行节点上寻,直到到body节点,构建出的这样一条路径及其权重信息。在库中,路径都以网站为单位组织,同路径合并成一条,并记录频率作为权重;

模式库

此处所谓模式包括

1)一个是方法中分段后每一段的如下特征码:

模式=md5((内容:text/img)+段落tag前向遍历序列+site name)+value

其中value是权重信息,也即模式的出现频率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于凤凰在线(北京)信息技术有限公司,未经凤凰在线(北京)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110455156.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top