[发明专利]一种非入侵式的数据库爬虫的实现方法有效
申请号: | 201210528786.5 | 申请日: | 2012-12-07 |
公开(公告)号: | CN103870465B | 公开(公告)日: | 2018-05-18 |
发明(设计)人: | 程行荣;张文章;余小峰;余顺丽 | 申请(专利权)人: | 厦门雅迅网络股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 厦门市首创君合专利事务所有限公司 35204 | 代理人: | 连耀忠 |
地址: | 361000 福建*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种非入侵式的数据库爬虫的实现方法,首先,在设计数据库时,对提供给搜索引擎进行索引和检索的数据库表添加至少一个时间戳字段,当应用程序对数据库表中的记录更新的同时将该时间戳字段修改为更新时刻的时间戳,数据库爬虫初始化时,预先设置待跟踪数据变化的时间段包括开始时间和结束时间,同时还设置每次从数据库中拉取的更新记录的最大记录数,数据库爬虫进行拉取更新数据,而后根据预设的参数拉取更新数据并提交给搜索引擎处理。本发明的技术方案通过数据库爬虫主动探测数据库数据的变化,然后数据库爬虫再将变化数据提交给搜索引擎处理,该数据库爬虫对数据库和程序都没有入侵,模块之间的耦合度小,便于系统的扩展和维护。 | ||
搜索关键词: | 一种 入侵 数据库 爬虫 实现 方法 | ||
【主权项】:
1.一种非入侵式的数据库爬虫的实现方法,其特征在于:首先,在设计数据库时,对提供给搜索引擎进行索引和检索的数据库表添加至少一个时间戳字段,当应用程序对数据库表中的记录更新的同时将该时间戳字段修改为更新时刻的时间戳,数据库爬虫初始化时,预先设置待跟踪数据变化的时间段包括开始时间和结束时间,同时还设置每次从数据库中拉取的更新记录的最大记录数,数据库爬虫进行拉取更新数据的步骤包括如下:1)判断开始时间是否大于结束时间,若是,则数据库爬虫的任务结束,停止该爬虫的运行;若否则进入步骤2);2)数据库爬虫将所述数据库中的时间戳字段值处于开始时间和结束时间之间的记录按顺序排列形成第一列表,依次从第一列表中获取最多为最大记录数的记录形成第二列表;3)将第二列表中的记录逐条提取记录数据并提交给搜索引擎处理,根据第二列表中时间戳字段值最接近当前所述待跟踪数据变化结束时间的记录的时间戳来设置新的待跟踪数据变化时间段,重复步骤1)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门雅迅网络股份有限公司,未经厦门雅迅网络股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210528786.5/,转载请声明来源钻瓜专利网。