[发明专利]基于集成搜索引擎的数据发现方法在审

申请号：	201710432848.5	申请日：	2017-06-09
公开（公告）号：	CN107133366A	公开（公告）日：	2017-09-05
发明（设计）人：	张鹏	申请（专利权）人：	成都布林特信息技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京天奇智新知识产权代理有限公司11340	代理人：	杨春
地址：	610000 四川省***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于集成搜索引擎数据发现方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于集成搜索引擎的数据发现方法，其特征在于，包括：

网络爬虫首先读取程序配置文件，并预加载缓存采集时要用到的数据；事务管理器根据配置信息，初始化各个事务，并控制事务的运行；事务获取处理任务，先进行爬取链接去重检查，分析爬取链接的类型，对不同的采集类型执行不同的处理方式，在采集时，分析是新的采集事务还是更新任务，并在获取到链接的网页源码后，对采集到的网页源码执行清洗、过滤，根据网页信息相关特征规律提取出有效信息；事务对提取出的信息进行转换处理，进行缓存；当缓存待保存数据达到一定数量时，事务执行缓存数据入库处理；同时事务管理器定时监控各个事务的执行状态，对异常事务进行控制管理。

2.根据权利要求1所述的方法，其特征在于，进一步包括：

采用多层缓存结构，根据计算机的内存大小对各层缓存大小进行配置；

首先对全局爬取进行缓存；在对爬取数据库的访问连接过程中，采用一次性获取批量爬取结果进行缓存；

其次采用单个事务自身的爬取缓存，每个事务各自拥有一个采集数据源缓存区域；

然后对事务在处理过程中的产生的数据进行缓存，包括在链接去重检查时，缓存访问过的网页、媒体链接地址；

最后一层缓存是缓存待保存的数据，当待保存的数据达到一定数量以后，事务才对数据进行入库保存。

3.根据权利要求1所述的方法，其特征在于，进一步包括：

在爬取之前，根据域名生成规则依次遍历所有可能的组合域名，对组合域名进行依次检测，识别有效域名与无效域名，建立根域名库；然后获取导航站点的网页源码，根据根域名组成规则从网页源码中提取根站点地址与链接文本，更新根域名库。

4.根据权利要求1所述的方法，其特征在于，进一步包括：

对于页面重复链接，为每个事务部署专门的去重容器，每个容器只存储自己已经访问过的链接地址的映射码；去重容器只记录自己访问过在同一个根域名站点下的链接，对不属于此根域名下的网页地址进行丢弃处理；

当事务开始采集另一个根站点信息时，清空去重容器的历史访问记录，重新记录新的根站点访问记录；将信息采集器爬取站点的深度设置阈值，每个事务运行时，实际去重容器所占的内存通过爬取站点深度的阈值来控制。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都布林特信息技术有限公司，未经成都布林特信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710432848.5/1.html，转载请声明来源钻瓜专利网。

上一篇：一种剖分编码的时序影像动态服务方法及装置
下一篇：一种信息处理方法及系统、服务器

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于集成搜索引擎的数据发现方法在审

专利文献下载