[发明专利]Web领域分布式实时抽取系统在审
申请号: | 201410842253.3 | 申请日: | 2015-02-06 |
公开(公告)号: | CN105988994A | 公开(公告)日: | 2016-10-05 |
发明(设计)人: | 刘挺;孟小峰 | 申请(专利权)人: | 北京询达数据科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/44 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100080 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请提出了一种新的对各大网站进行数据抽取的深度数据挖掘方法,该方法能够实现全天候,自动化的定向抽取所指向的网站,采用的语言为css/html或jquery格式,其中的自动化模块能够根据一定的频率对存入其中列表的网站进行数据抽取,可以设定抽取次数或者无限制自动循环,另一个分布式爬虫模块,能够根据一定的频率对网站进行抽取,可以进行多层次抽取,抽取后的内容经过过滤层,通过对抽取内容进行缺失值补缺,一定的过滤值进行过滤,最后根据设置情况将结果存入当地或者远程数据库之中,本系统可以实现分布式的,全天候的自动化式的数据抽取和集成。 | ||
搜索关键词: | web 领域 分布式 实时 抽取 系统 | ||
【主权项】:
Web领域分布式实时数据抽取系统,其特征在于,包括以下步骤:读取需要抽取的网站名列表里面的信息;根据信息,根据一定的频率,对网站(论坛,门户网站等)进行数据抽取,采用的语言css/html或者jquery格式;对抽取的内容进行一次处理,包括缺失值补缺,过滤器设置等;根据配置文件,将处理后的内容传送到本地或者远程数据库中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京询达数据科技有限公司,未经北京询达数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410842253.3/,转载请声明来源钻瓜专利网。