[发明专利]一种elasticsearch的分布式多功能搜索引擎在审

专利信息
申请号: 201911139989.3 申请日: 2019-11-20
公开(公告)号: CN110889023A 公开(公告)日: 2020-03-17
发明(设计)人: 刘旭宸;姚潇;王钟贤;徐宁;刘小峰 申请(专利权)人: 河海大学常州校区
主分类号: G06F16/951 分类号: G06F16/951;G06F16/9535
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 丁涛
地址: 213022 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 elasticsearch 分布式 多功能 搜索引擎
【说明书】:

发明公开了一种基于elasticsearch的分布式多功能搜索引擎,包括如下步骤:S1,分布式爬虫构建原始搜索数据集;S2,利用自然语言与图像处理对所爬取到的数据进行清理并插入到非关系型数据库;S3,将非关系型数据库中的数据同步到elasticsearch分布式集群及节点中;S4,利用Django网络框架实现前台与elasticsearch的互联完成搜索引擎的搭建。本发明提供的搜索引擎大大提高的搜索的准确性,合理性,增强了用户体验。

技术领域

本发明涉及一种elasticsearch的分布式多功能搜索引擎,属于互联网技术领域。

背景技术

搜索引擎的科学研究价值不仅仅体现在其高技术挑战性,而且表现在其对于整个互联网络乃至民生提供的便捷性和信息高速传达方式,对整个社会的高度的经济促进作用。搜索引擎的研究还只是刚刚的开始,如何在web信息中寻找最符合用户需求的信息展示出来,这不仅在尺度上是空前巨大,而且规范条件也是非常的不确定。及其的系统往往是很难判别出用户真正需要的是什么信息的,所以系统得到的输入是一个笼统的模糊的概念。

一般而言,普通的搜索引擎只是根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。但是这样的系统运行效率不高,用关键词检索的结果不是很尽如人意。

发明内容

发明目的:为了克服现有技术的不足,本发明提供了一种基于elasticsearch的分布式多功能搜索引擎。

本发明采用的技术方案为:

一种基于elasticsearch的分布式多功能搜索引擎,具体包括以下步骤:

S1,分布式爬虫构建原始搜索数据集;

使用的分布式爬虫框架主要包括下载器Downloader和解析器Analyzer两个部分。Downloader负责抓取网页,Analyzer负责解析网页并入库。两者之间依靠消息队列MQ进行通信,两者可以分布在不同机器,也可分布在同一台机器。两者的数量也是灵活可变的,具体实现包括以下几个部分:

首先是如何实现不同节点同时运行同一的爬取任务,同一个程序打包后分发到不同的节点运行时,不影响整体的数据爬取,爬取时每个调度器都有其对应的自己的Downloader。在爬取队列保持唯一的情况下,即共享爬取队列。其中的核心包括网页的下载、解析与随机IP代理器。

网页的下载与解析:网页的下载是基于downloader封装完成的下载器,解析是将所需数据解析出来,并保存到某个对象中,供数据存储器进一步处理以保存到不同的持久化仓库中。

随机IP代理器:我们选用高性能的proxy server http代理服务器,突破自身ip访问限制,隐藏自身真实ip并提高爬取速度。在爬取过程中,当所爬取的网站对当前节点禁止访问时,立即从代理池中取出另一个代理服务器进行高性能爬取。

数据的存储:通过pipeline,downloader_middlewares的配置以及数据库基本信息配置,实现存储到数据库的item pipeline,启用pipeline后,分布式爬虫会将该爬取队列中的爬取设计好的item存储到对应的mysql数据库中。

其次是要借用调度器Scheduler实现URL的优先队列的构建,调度器从引擎接受request并将他们入队,以便之后引擎请求他们时提供给引擎确定爬取顺序,最后审核删去重复数据

此处使用Redis与Scrapy的Scheduler组合实现一个URL仓库,即在系统中使用Redis来保存并维护我们的url地址列表,只要保存了url是唯一的,这样不管爬虫程序有多少个,最终保存下来的数据都是按照预定好的优先度进行爬取。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学常州校区,未经河海大学常州校区许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911139989.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top