[发明专利]基于集成搜索引擎的数据发现方法在审

申请号：	201710432848.5	申请日：	2017-06-09
公开（公告）号：	CN107133366A	公开（公告）日：	2017-09-05
发明（设计）人：	张鹏	申请（专利权）人：	成都布林特信息技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京天奇智新知识产权代理有限公司11340	代理人：	杨春
地址：	610000 四川省***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种基于集成搜索引擎的数据发现方法，该方法包括读取程序配置文件，并预加载缓存采集时要用到的数据；初始化各个事务，并控制事务的运行，获取处理任务，进行爬取链接去重检查，分析爬取链接的类型，对采集到的网页源码执行清洗、过滤，提取出有效信息；对提取出的信息进行转换处理，进行缓存，当缓存待保存数据达到一定数量时执行缓存数据入库处理；同时定时监控各个事务的执行状态，对异常事务进行控制管理。本发明提出了一种基于集成搜索引擎的数据发现方法，利用事务控制策略进行高效数据采集，针对多维对象之间的耦合关系进行数据挖掘。
搜索关键词：	基于集成搜索引擎数据发现方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于集成搜索引擎的数据发现方法，其特征在于，包括：网络爬虫首先读取程序配置文件，并预加载缓存采集时要用到的数据；事务管理器根据配置信息，初始化各个事务，并控制事务的运行；事务获取处理任务，先进行爬取链接去重检查，分析爬取链接的类型，对不同的采集类型执行不同的处理方式，在采集时，分析是新的采集事务还是更新任务，并在获取到链接的网页源码后，对采集到的网页源码执行清洗、过滤，根据网页信息相关特征规律提取出有效信息；事务对提取出的信息进行转换处理，进行缓存；当缓存待保存数据达到一定数量时，事务执行缓存数据入库处理；同时事务管理器定时监控各个事务的执行状态，对异常事务进行控制管理。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都布林特信息技术有限公司，未经成都布林特信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710432848.5/，转载请声明来源钻瓜专利网。

上一篇：一种剖分编码的时序影像动态服务方法及装置
下一篇：一种信息处理方法及系统、服务器

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于集成搜索引擎的数据发现方法在审

专利文献下载