[发明专利]一种文章类型网页智能抽取系统及其方法有效
申请号: | 201110455156.5 | 申请日: | 2011-12-31 |
公开(公告)号: | CN102567530A | 公开(公告)日: | 2012-07-11 |
发明(设计)人: | 吴华鹏;曾明;厉锟 | 申请(专利权)人: | 凤凰在线(北京)信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京瑞思知识产权代理事务所(普通合伙) 11341 | 代理人: | 李涛 |
地址: | 100029 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种文章类型网页智能抽取系统,包括:待抽取网页载入模块、包装器查询模块、网页抽取模块、抽取失败网页收集模块、学习判断模块、网页学习模块、抽取包装器管理模块。 | ||
搜索关键词: | 一种 文章 类型 网页 智能 抽取 系统 及其 方法 | ||
【主权项】:
一种文章类型网页智能抽取系统,包括:(1)待抽取网页载入模块,定时查询本地索引,发现新索引就按照索引将网页载入系统内存中;(2)包装器查询模块,对所有待抽取的网页,查询具体抽取包装器信息,如果查询到,就按照抽取包装器,进入抽取模块,进行具体抽取,否则,将网页标记为抽取失败;(3)网页抽取模块,从网页中抽取出具体文章信息,借助已有的抽取包装器;(4)抽取失败网页收集模块,将本轮抽取失败的网页收集起来,按网站分类,以方便进行集中学习;(5)学习判断模块,按同网站查询抽取失败网页集合,根据每一网站的失败网页数量,计算此网站本轮抽取成功失败比例,决定是否进入网页学习模块;(6)网页学习模块,对所有失败网页进行机器学习,最后生成新的抽取包装器;(7)抽取包装器管理模块,对系统的抽取包装器进行管理,也即对路径库和模式库进行管理,并提供包装器使用接口给网页抽取模块,提供包装器更新接口给网页学习模块。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于凤凰在线(北京)信息技术有限公司,未经凤凰在线(北京)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110455156.5/,转载请声明来源钻瓜专利网。