[发明专利]基于集成搜索引擎的数据发现方法在审
申请号: | 201710432848.5 | 申请日: | 2017-06-09 |
公开(公告)号: | CN107133366A | 公开(公告)日: | 2017-09-05 |
发明(设计)人: | 张鹏 | 申请(专利权)人: | 成都布林特信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京天奇智新知识产权代理有限公司11340 | 代理人: | 杨春 |
地址: | 610000 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 集成 搜索引擎 数据 发现 方法 | ||
技术领域
本发明涉及数据检索,特别涉及一种基于集成搜索引擎的数据发现方法。
背景技术
随着Web技术的不断发展,网络信息资源正以几何速度的方式增长。如何从互联网海量信息中快速检索出与用户相关的有用数据已成为当前急需解决的问题。搜索引擎正是在信息检索技术的基础上发展起来的。搜索引擎帮助本发明更好的表达和存储现实世界中的本质信息,而且通过对搜索引擎中的联接信息进行分析,可作为一种挖掘隐藏信息的有用工具。现有搜索引擎单纯的依赖有限搜索词去表达用户需求,存在这表达不完整的问题。即使是同样的搜索词,不同的用户所期望的结果可能也是不同的。例如微博系统,如果考虑微博以及相关交互对象的关系,它可以抽象为一个异构网络,其中包含了微博、信息、标签以及用户等节点。微博和微博之间存在着关注和粉丝关系,微博和信息之间存在着发表和转发关系,微博和标签之间是一个包含关系,而用户和微博之间存在着拥有关系。现有的搜索工具并未考虑上述多维对象形成的复杂环境进行数据挖掘。
发明内容
为解决上述现有技术所存在的问题,本发明提出了一种基于集成搜索引擎的数据发现方法,包括:
网络爬虫首先读取程序配置文件,并预加载缓存采集时要用到的数据;事务管理器根据配置信息,初始化各个事务,并控制事务的运行;事务获取处理任务,先进行爬取链接去重检查,分析爬取链接的类型,对不同的采集类型执行不同的处理方式,在采集时,分析是新的采集事务还是更新任务,并在获取到链接的网页源码后,对采集到的网页源码执行清洗、过滤,根据网页信息相关特征规律提取出有效信息;事务对提取出的信息进行转换处理,进行缓存;当缓存待保存数据达到一定数量时,事务执行缓存数据入库处理;同时事务管理器定时监控各个事务的执行状态,对异常事务进行控制管理。
优选地,采用多层缓存结构,根据计算机的内存大小对各层缓存大小进行配置;
首先对全局爬取进行缓存;在对爬取数据库的访问连接过程中,采用一次性获取批量爬取结果进行缓存;
其次采用单个事务自身的爬取缓存,每个事务各自拥有一个采集数据源缓存区域;
然后对事务在处理过程中的产生的数据进行缓存,包括在链接去重检查时,缓存访问过的网页、媒体链接地址;
最后一层缓存是缓存待保存的数据,当待保存的数据达到一定数量以后,事务才对数据进行入库保存。
优选地,在爬取之前,根据域名生成规则依次遍历所有可能的组合域名,对组合域名进行依次检测,识别有效域名与无效域名,建立根域名库;然后获取导航站点的网页源码,根据根域名组成规则从网页源码中提取根站点地址与链接文本,更新根域名库。
优选地,对于页面重复链接,为每个事务部署专门的去重容器,每个容器只存储自己已经访问过的链接地址的映射码;去重容器只记录自己访问过在同一个根域名站点下的链接,对不属于此根域名下的网页地址进行丢弃处理;
当事务开始采集另一个根站点信息时,清空去重容器的历史访问记录,重新记录新的根站点访问记录;将信息采集器爬取站点的深度设置阈值,每个事务运行时,实际去重容器所占的内存通过爬取站点深度的阈值来控制。
本发明相比现有技术,具有以下优点:
本发明提出了一种基于集成搜索引擎的数据发现方法,利用事务控制策略进行高效数据采集,针对多维对象之间的耦合关系进行数据挖掘。
附图说明
图1是根据本发明实施例的基于集成搜索引擎的数据发现方法的流程图。
具体实施方式
下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
本发明的一方面提供了一种基于集成搜索引擎的数据发现方法。图1是根据本发明实施例的基于集成搜索引擎的数据发现方法流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都布林特信息技术有限公司,未经成都布林特信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710432848.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置