[发明专利]一种文章类型网页智能抽取系统及其方法有效
申请号: | 201110455156.5 | 申请日: | 2011-12-31 |
公开(公告)号: | CN102567530A | 公开(公告)日: | 2012-07-11 |
发明(设计)人: | 吴华鹏;曾明;厉锟 | 申请(专利权)人: | 凤凰在线(北京)信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京瑞思知识产权代理事务所(普通合伙) 11341 | 代理人: | 李涛 |
地址: | 100029 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文章 类型 网页 智能 抽取 系统 及其 方法 | ||
技术领域
本发明涉及一种在互联网中进行文章实时智能抓取的系统及其方法,可以应用于需要大规模精准、实时地抓取文章的门户网站、搜索引擎网站等互联网领域。
背景技术
互联网门户类网站每天都有大量的文章转载需求,并且对文章的质量要求很高。现有很多抓取系统可以满足这个需求,但是它们都困扰于下面三个问题:
1)采用机器自动生成抽取包装器技术的抓取系统可以大量抓取文章,但是无法做到文章的精准抽取,抓取文章的可用性低;
2)采用人工生成抽取包装器技术的抓取系统文章抽取结果精准,但是要对互联网上千个网站进行抽取包装器的生成和更新维护工作,普通垂直爬虫无法很好担负这一工作,只能依赖大量的人力参与;
3)安全、高效的实时抓取技术。在要求高实时性抓取的时候,需要对抓取网站服务器频繁的发起链接和下载请求,这将会给对方服务器造成很大的压力,进而会导致对方采用封禁策略如拒绝访问等来保证服务器正常工作,这将导致抓取失败。同时高实时的抓取需求,非常耗费网络、服务器等硬件资源,导致成本上升。
本发明专利较好的解决了上述问题。
本发明专利还具有更多传统抓取系统没有的优点:
通过同站学习可以自动将网站中非文章页面比如频道页、专题页、列表页、广告页过滤;
可以对抓取文章进行近似文档排重;
可以对抓取文章进行语义理解,自动分类,自动生成摘要和关键词;
可以准确寻找某文章数目50以内的分页序列并对分页内容进行顺序合并;
可以对网站抓取范围进行灵活配置。支持抓取网站、频道、任意页面上一个或多个列表区域所属的文章。
在实际应用中,本抓取系统转载文章质量很高,可以直接对外发布面向用户,同时自动适应上千个抓取网站的模版变化,极大的减少了抓取需要的人力参与,在大面积改善门户类网站的新闻覆盖度和实时性同时,也降低了门户类网站的人力成本。
在所有门户类网站中,本专利都有应用场景,可以有效改善其新闻的覆盖度和实时性,同时降低人力成本。
同时新闻类搜索引擎中,本专利也可以应用。
信息抽取领域现在有很多技术方案,核心都是如何生成和维护抽取包装器。技术上主要分下面两类:
1)采用机器自动生成抽取包装器技术的抽取系统可以大量抓取文章,但是无法做到文章的精准抽取,抓取文章的可用性低;
2)采用人工生成抽取包装器技术的抽取系统,文章抽取结果精准,但是要对互联网上千个网站进行抽取包装器的生成和更新维护工作,只能依赖大量的人力参与;
本发明专利的抽取模块以自主研发的“基于同站学习和自动规则生成的文章自动抽取”方法为核心,很好地解决了上面两个问题。
在实际应用中,本技术方案实现了抽取包装器的机器自动生成和维护,使抽取不需要大量的人力参与;同时还实现了文章的精准抽取,抽取结果很少冗余和遗漏,可用性很高。
本发明中涉及一下技术术语,解释如下:
抽取包装器:网页信息抽取是信息抽取中的一类,网页信息抽取的包装器生成技术目前发展成为一个较为独立的领域。包装器是由一系列抽取规则以及应用这些规则的计算机代码组成的,专门从特定信息源中抽取需要的信息并返回结果的程序;
基于同站学习和自动规则生成的文章自动抽取方法:本发明包含的一个包装器自动生成方法,可以精准智能的从网页中抽取出文章信息;
同站学习:按网站为单位,收集一个网站足够量的网页,一起进行机器统计学习,进而从中生成需要的规则;
爬虫(或者抓取爬虫):抓取系统中单独指负责网页下载的模块;
本系统研发的抽取包装器包括两个库:
Style树或者路径库:
Style的集合库。Style指的是某个DOM节点在DOM树中进行节点上寻,直到到body节点,构建出的这样一条路径及其权重信息。在库中,路径都以网站为单位组织,同路径合并成一条,并记录频率作为权重;
模式库:
此处所谓模式包括
1)一个是方法中分段后每一段的如下特征码:
模式=md5((内容:text/img)+段落tag前向遍历序列+site name)+value
其中value是权重信息,也即模式的出现频率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于凤凰在线(北京)信息技术有限公司,未经凤凰在线(北京)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110455156.5/2.html,转载请声明来源钻瓜专利网。