[发明专利]一种基于元搜索的网络信息采集器简单实现方法在审

专利信息
申请号: 201410092387.8 申请日: 2014-03-14
公开(公告)号: CN103902667A 公开(公告)日: 2014-07-02
发明(设计)人: 刘粉粉 申请(专利权)人: 浪潮电子信息产业股份有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 250014 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 搜索 网络 信息 采集 简单 实现 方法
【说明书】:

 

技术领域   

    发明是一种基于元搜索的网络信息采集器简单实现方法,通常适于用企业或者政府单位在网络上搜索相关的新闻信息,通过对数据的分析得到决策性的结果。

背景技术

 现在的网络信息采集系统大多采用直接对网站进行采集的方式,实现不仅复杂,而且由于网站模块的不同,ulr的频繁变化,需要不断的对采集的采集网站的url进行监控维护;而且采集的范围也有限,对采集系统的负载要求也较高,降低了采集效率。

 元搜索引擎就是对多个搜索引擎的整合、调用、控制和优化利用,简单的说,就是通过一站式的搜索,将输入的关键词在多个搜索引擎的查询结果统一返回,用户只需要通过一次搜索就可以看到多个搜索引擎的搜索结果,较好的解决了单个搜索引擎覆盖范围窄的问题。

 目前,基于元搜索的采集实现都非常的复杂,实际使用时实现非常的复杂,没有一个简单的统一的方法。

发明内容

    本发明就是实现一种基于元搜索的网络信息采集器简单实现方法,能够根据此方法快速高效的实现一个元搜索采集器。

    集成多个搜索引擎,对搜索关键词并行进行搜索采集,然后对采集信息进行有效的组织,及时发现最新信息,提供给用户用作分析的基础数据源,该方法适用的体系结构包括:生成采集起始URL模块,模拟浏览器行为模块,搜索结果列表页下载并结构化信息提取模块,网页去重,网页正文抽模块。

生成采集起始URL模块对每个搜索引擎的搜索采集任务都设置为是一个爬虫任务,每个爬虫任务对应一个配置文件,配置文件中配置:搜索URL的中文字符编码格式,搜索页的其实页码,每页返回的搜索结果的数据,翻页时页码的增长的步长,该搜索引擎返回结果的总数,结果列表页的编码格式,URL语法格式,抽取结果列表页抽取规则。根据每个搜索引擎的不同的URL语法格式,将中文关键词进行对应的编码,在填充入其中的参数值,就构造出了每个搜索引擎对应的采集起始URL。

模拟浏览器行为模块实现网页采集反屏蔽,通过如下方法:对采集任务间隔进行控制,固定间隔加上随机间隔;构造代理头池和IP池,每次爬取网页时,随机切换一个userAgent和IP。

网页去重采用 REDIS 内存数据库来存储已下载的 URL,通过REDIS的set数据结构构造一个URL非重复队列,排除URL重复,如URL重复则不对网页再次进行下载。

网页正文抽模块,可设置不同的规则对不同的网站的网页进行正文抽取,并且过滤掉垃圾信息。该模块还可以将抽取到的网页中的链接继续进行采集,实现多层的采集。

本发明可实现一种简单的基于元搜索的通用采集器,集成多个搜索引擎,对搜索关键词并行进行搜索采集,然后对采集信息进行有效的组织,及时发现最新信息,提供给用户用作分析的基础数据。

附图说明

附图1为本发明中的实现流程示意图。

具体实施方式

参照附图1,一种基于元搜索的网络信息采集器实现方法流程如下:

(1)    首先,通过生成采集起始URL模块(1)读取配置文件中的关键词、搜索属性,生成URL。

关键词配置文件可采用txt、excel、xml格式,举例如下:

搜索属性配置文件可采用txt、xml格式,举例如下

(2)    模拟浏览器行为模块(2)对采集任务间隔进行控制,构造代理头池和IP池实现网页访问的反屏蔽。

(3)    如果要进行采集下载的URL是初始URL,则下面的操作是向各搜索引擎发出搜索请求并下载搜索结果列表页,则执行搜索结果列表页下载并结构化信息提取模块(3);否则的话,则是对从正文中提取的链接进行采集,无需再经过向搜索引擎发出搜索请求的操作,直接进入网页去重模块(4)。

(4)    然后搜索结果列表页下载并结构化信息提取模块(3)将采用模拟浏览器行为的方式通过不同搜索引擎进行搜索,并下载搜索到的结果列表页,然后进行结构化信息(标题、来源、发布时间、摘要、URL)提取。

(5)    网页去重模块(4)将对所有搜索引擎返回的搜索结果中提取的URL进行是否重复检查,如果URL无重复,则对网页进行下载;否则,只计算每个URL的重复次数。

(6)    URL去重后,网页正文抽模块(5)将每个搜索结果根据URL进行下载并且提取其正文。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410092387.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top