[发明专利]一种基于元搜索的网络信息采集器简单实现方法在审

申请号：	201410092387.8	申请日：	2014-03-14
公开（公告）号：	CN103902667A	公开（公告）日：	2014-07-02
发明（设计）人：	刘粉粉	申请（专利权）人：	浪潮电子信息产业股份有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	250014 山东***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于搜索网络信息采集简单实现方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于元搜索的网络信息采集器简单实现方法，其特征在于集成多个搜索引擎，对搜索关键词并行进行搜索采集，然后对采集信息进行有效的组织，及时发现最新信息，提供给用户用作分析的基础数据源，该方法适用的体系结构包括：生成采集起始URL模块，模拟浏览器行为模块，搜索结果列表页下载并结构化信息提取模块，网页去重，网页正文抽模块；

生成采集起始URL模块生成搜索引擎搜索URL；

模拟浏览器行为模块将访问网站行为伪装成浏览器的行为，实现采集的反屏蔽；

搜索结果列表页下载并结构化信息提取模块将搜索并下载到的结果进行结构信息（标题、来源、发布时间、摘要、URL）提取；

网页去重将提取到的搜索结果的URL进行去重，避免相同网站进行重复下载；

网页正文抽模块下载并提取搜索结果的正文，将正文以及模块结构化的信息存储到数据库中。

2.根据权利要求1所述的方法，其特征在于所述生成采集起始URL模块，可支持若干的主流搜索引擎，对同样的关键词进行并行搜索。

3.根据权利要求1所述的方法，其特征在于所述的模拟浏览器行为模块，可通过不同的手段实现模拟浏览器行为，包括：对采集任务间隔进行控制，固定间隔加上随机间隔；够着代池和IP池，随机切换userAgent和IP。

4.根据权利要求1所述的方法，其特征在于所述的网页去重，可通过内存数据库实现url的去重，并可计算某个网页的重复次数，为计算网页重要程度提供数据。

5.根据权利要求1所述的方法，其特征在于所述的网页正文抽模块，可设置不同的规则对不同的网站的网页进行正文抽取，并且过滤掉垃圾信息；该模块还可以将抽取到的网页中的链接继续进行采集，实现多层的采集。

6.根据权利要求1所述的方法，其特征在于所述的网页正文抽模块，可设置不同的规则对不同的网站的网页进行正文抽取，并且过滤掉垃圾信息；该模块还可以将抽取到的网页中的链接继续进行采集，实现多层的采集。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司，未经浪潮电子信息产业股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410092387.8/1.html，转载请声明来源钻瓜专利网。

上一篇：光纤余长高速履带牵引设备
下一篇：一种基于时域信道匹配的OFDM-TDCS的接收方案

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于元搜索的网络信息采集器简单实现方法在审

专利文献下载