[发明专利]用于安全产业链的智能垂直搜索装置和方法有效

专利信息
申请号: 201410078014.5 申请日: 2014-03-05
公开(公告)号: CN103886033B 公开(公告)日: 2017-02-08
发明(设计)人: 刘欣毅;李昂生 申请(专利权)人: 无锡香象生物科技有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F9/46
代理公司: 北京中恒高博知识产权代理有限公司11249 代理人: 宋敏
地址: 214000 江苏省无锡市锡山*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 安全 产业链 智能 垂直 搜索 装置 方法
【说明书】:

技术领域

发明涉及用于安全产业链的智能垂直搜索装置和方法,具体地,涉及一种用于药品、食品和医疗器械安全产业链智能垂直搜索装置和方法。

背景技术

大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。据win咨询数据,2005年全球共产生了1300亿GB(千兆字节)的数据。预计2020年将增至40万亿GB。而每天产生的25GB数据中,仅有0.5%被充分利用,展现出其分析价值。2010年,大数据产业的价值为32亿美元。到2015年预计这一数字将高达169亿美元。

在药品、食品、医疗器械安全产业链云计算集群服务平台中,2012年积累核心业务数据到200万份,关联文献数据1000万份,2014年核心业务数据积累达到500万份。每年以250%增长。如表一所示:

表一、药品、食品、医疗器械安全产业链云计算集群服务平台Big Data大数据表:

                                                 。

基于药品、食品、医疗器械安全领域,面对如此庞大的数据,并逐年增长,目前,通用的搜索引擎主要是google、百度、搜狗以及雅虎等,主要都是基于通用的搜索引擎技术,其数据来源主要是互联网开放的网页内容,并通过汇集,直接呈现给用户,中间加入了其商业行为。其缺点主要如下:

1.数据来源不具有权威性,是互联网开放的网页内容;

2.不能提供行业垂直搜索服务,包括行业Big Data大数据的智能挖掘与分析;

3.缺乏垂直行业Big Data大数据的智能挖掘与分析权威依据;

4.缺乏垂直行业闭环式搜索服务;

5.搜索结果的精准度不高,只是文献级别的结果呈现。

发明内容

本发明的目的在于,针对上述问题,提出一种用于安全产业链的智能垂直搜索装置和方法,以实现可靠、准确、实时且智能搜索的优点。

为实现上述目的,本发明采用的技术方案是:

一种用于安全产业链的智能垂直搜索装置,包括

爬行器引擎即搜索器引擎:爬行器引擎用来控制整个系统的数据处理流程,并进行事务处理的触发;

调度:调度程序从爬行器引擎接受请求并排序列入队列,并在爬行器引擎发出请求后返还给调度程序;

下载器:下载器抓取网页并将网页内容返还给蜘蛛;

蜘蛛:蜘蛛是爬行器用户自己定义用来解析网页并抓取制定URL返回的内容的类,每个蜘蛛能处理一个域名或一组域名,即用来定义特定网站的抓取和解析规则;

搜素因子库:包括标准因子库、权重因子库和域库:标准因子库记载药和器械的数据,也就是第一搜素对象,权重因子库,域库:负责权威认证的互联网范围;

项目管道:项目管道的负责处理蜘蛛从网页中抽取的项目,验证和存储数据,当页面被蜘蛛解析后,将被发送到项目管道;项目管道通常执行的过程有:清洗HTML数据,验证解析到的数据即检查项目是否包含必要的字段,检查是否是重复数据如果重复就删除,将解析到的数据存储到数据库中;

下载器中间件:下载中间件是位于爬行器引擎和下载器之间的钩子框架,负责处理爬行器引擎与下载器之间的请求及响应;

蜘蛛中间件:蜘蛛中间件是介于爬行器引擎和蜘蛛之间的钩子框架,负责处理蜘蛛的响应输入和请求输出;提供一个自定义代码的方式来拓展爬行器的功能;

调度中间件:调度中间件是介于爬行器引擎和调度之间的中间件,负责处理从爬行器引擎发送到调度的请求和响应,并提供了一个自定义的代码来拓展爬行器的功能。

根据本发明的优选实施例,还包括,安全认证模块:负责内部用户安全认证;

用户行为识别记忆模块:负责垂直闭环搜索中用户的智能行为识别和记忆,为用户提供智能使用导向和服务。

同时本发明技术方案公开一种用于安全产业链的智能垂直搜索装置的搜索方法,包括以下步骤:

步骤1、爬行器引擎打开一个域名,蜘蛛处理这个域名,并让蜘蛛获取第一个爬取的URL;

步骤2、引擎从蜘蛛那获取第一个需要爬取的URL,然后作为请求在调度中进行调度;

步骤3、引擎从调度那获取下一步进行爬取的页面;

步骤4、调度将下一个爬取的URL返回给引擎,引擎通过下载中间件发送到下载器;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于无锡香象生物科技有限公司,未经无锡香象生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410078014.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top