[发明专利]一种基于元搜索的网络信息采集器简单实现方法在审
申请号: | 201410092387.8 | 申请日: | 2014-03-14 |
公开(公告)号: | CN103902667A | 公开(公告)日: | 2014-07-02 |
发明(设计)人: | 刘粉粉 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250014 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 搜索 网络 信息 采集 简单 实现 方法 | ||
技术领域
本发明是一种基于元搜索的网络信息采集器简单实现方法,通常适于用企业或者政府单位在网络上搜索相关的新闻信息,通过对数据的分析得到决策性的结果。
背景技术
现在的网络信息采集系统大多采用直接对网站进行采集的方式,实现不仅复杂,而且由于网站模块的不同,ulr的频繁变化,需要不断的对采集的采集网站的url进行监控维护;而且采集的范围也有限,对采集系统的负载要求也较高,降低了采集效率。
元搜索引擎就是对多个搜索引擎的整合、调用、控制和优化利用,简单的说,就是通过一站式的搜索,将输入的关键词在多个搜索引擎的查询结果统一返回,用户只需要通过一次搜索就可以看到多个搜索引擎的搜索结果,较好的解决了单个搜索引擎覆盖范围窄的问题。
目前,基于元搜索的采集实现都非常的复杂,实际使用时实现非常的复杂,没有一个简单的统一的方法。
发明内容
本发明就是实现一种基于元搜索的网络信息采集器简单实现方法,能够根据此方法快速高效的实现一个元搜索采集器。
集成多个搜索引擎,对搜索关键词并行进行搜索采集,然后对采集信息进行有效的组织,及时发现最新信息,提供给用户用作分析的基础数据源,该方法适用的体系结构包括:生成采集起始URL模块,模拟浏览器行为模块,搜索结果列表页下载并结构化信息提取模块,网页去重,网页正文抽模块。
生成采集起始URL模块对每个搜索引擎的搜索采集任务都设置为是一个爬虫任务,每个爬虫任务对应一个配置文件,配置文件中配置:搜索URL的中文字符编码格式,搜索页的其实页码,每页返回的搜索结果的数据,翻页时页码的增长的步长,该搜索引擎返回结果的总数,结果列表页的编码格式,URL语法格式,抽取结果列表页抽取规则。根据每个搜索引擎的不同的URL语法格式,将中文关键词进行对应的编码,在填充入其中的参数值,就构造出了每个搜索引擎对应的采集起始URL。
模拟浏览器行为模块实现网页采集反屏蔽,通过如下方法:对采集任务间隔进行控制,固定间隔加上随机间隔;构造代理头池和IP池,每次爬取网页时,随机切换一个userAgent和IP。
网页去重采用 REDIS 内存数据库来存储已下载的 URL,通过REDIS的set数据结构构造一个URL非重复队列,排除URL重复,如URL重复则不对网页再次进行下载。
网页正文抽模块,可设置不同的规则对不同的网站的网页进行正文抽取,并且过滤掉垃圾信息。该模块还可以将抽取到的网页中的链接继续进行采集,实现多层的采集。
本发明可实现一种简单的基于元搜索的通用采集器,集成多个搜索引擎,对搜索关键词并行进行搜索采集,然后对采集信息进行有效的组织,及时发现最新信息,提供给用户用作分析的基础数据。
附图说明
附图1为本发明中的实现流程示意图。
具体实施方式
参照附图1,一种基于元搜索的网络信息采集器实现方法流程如下:
(1) 首先,通过生成采集起始URL模块(1)读取配置文件中的关键词、搜索属性,生成URL。
关键词配置文件可采用txt、excel、xml格式,举例如下:
搜索属性配置文件可采用txt、xml格式,举例如下
(2) 模拟浏览器行为模块(2)对采集任务间隔进行控制,构造代理头池和IP池实现网页访问的反屏蔽。
(3) 如果要进行采集下载的URL是初始URL,则下面的操作是向各搜索引擎发出搜索请求并下载搜索结果列表页,则执行搜索结果列表页下载并结构化信息提取模块(3);否则的话,则是对从正文中提取的链接进行采集,无需再经过向搜索引擎发出搜索请求的操作,直接进入网页去重模块(4)。
(4) 然后搜索结果列表页下载并结构化信息提取模块(3)将采用模拟浏览器行为的方式通过不同搜索引擎进行搜索,并下载搜索到的结果列表页,然后进行结构化信息(标题、来源、发布时间、摘要、URL)提取。
(5) 网页去重模块(4)将对所有搜索引擎返回的搜索结果中提取的URL进行是否重复检查,如果URL无重复,则对网页进行下载;否则,只计算每个URL的重复次数。
(6) URL去重后,网页正文抽模块(5)将每个搜索结果根据URL进行下载并且提取其正文。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410092387.8/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置