[发明专利]一种面向深层网页的增量信息获取方法有效

专利信息
申请号: 201110020898.5 申请日: 2011-01-18
公开(公告)号: CN102103636A 公开(公告)日: 2011-06-22
发明(设计)人: 方巍;文学志;毕硕本;崔志明 申请(专利权)人: 南京信息工程大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 许方
地址: 210044 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公布了一种面向深层网页的增量信息获取方法。本发明方法包括:步骤1:确定与远程数据源同步频率;步骤2:利用泊松过程来表示数据源变化频率;步骤3:确定平均新颖度;步骤4:根据数据时新性确定更新频率进行增量信息获取。另外,本发明还可以利用在线学习方法有效进行增量信息获取。本发明方法首先确定与远程数据源同步频率,然后利用泊松过程获得数据源变化频率;接着根据数据时新性确定更新频率。相比现有技术,本发明方法是一种非常高效的深层网页的增量信息获取方法,它能够较大范围地提高人们的工作效率以及在相同更新资源条件下,使得本地数据和远程数据保持最大化同步,为进一步实现深层网数据源集成提供基础。
搜索关键词: 一种 面向 深层 网页 增量 信息 获取 方法
【主权项】:
1.一种面向深层网页的增量信息获取方法,其特征在于包括如下步骤:步骤1:确定本地对象与远程数据源同步频率,其中远程数据源即远程Web上数据库;步骤2:利用泊松过程来表示远程数据源平均变化频率λi,其中,i=1,2,...,n;步骤3:确定平均新颖度:由步骤2得到的平均变化频率λi,确定各对象即远程Web上数据库中各数据项ei对应的同步频率fi,在满足同步资源限制的条件下,使本地数据库的平均新颖度最大,F(S)=1nΣi=1nF(ei)=1nΣi=1nF(λi,fi);]]>步骤4:根据数据时新性确定更新频率在时刻t数据抓取系统所维护的第i个数据记录ri的时新性如下:则由N个数据记录组成的数据记录集合S的平均时新性如下:F(S,t)=1NΣi=1NF(ri,t).]]>利用拉格朗日乘子可以计算得到各对象的理论同步频率,然后按理论同步频率对对象数据进行同步,使本地数据库的平均新颖度达到最大值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201110020898.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top