[发明专利]一种面向深层网页的增量信息获取方法有效
申请号: | 201110020898.5 | 申请日: | 2011-01-18 |
公开(公告)号: | CN102103636A | 公开(公告)日: | 2011-06-22 |
发明(设计)人: | 方巍;文学志;毕硕本;崔志明 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 许方 |
地址: | 210044 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公布了一种面向深层网页的增量信息获取方法。本发明方法包括:步骤1:确定与远程数据源同步频率;步骤2:利用泊松过程来表示数据源变化频率;步骤3:确定平均新颖度;步骤4:根据数据时新性确定更新频率进行增量信息获取。另外,本发明还可以利用在线学习方法有效进行增量信息获取。本发明方法首先确定与远程数据源同步频率,然后利用泊松过程获得数据源变化频率;接着根据数据时新性确定更新频率。相比现有技术,本发明方法是一种非常高效的深层网页的增量信息获取方法,它能够较大范围地提高人们的工作效率以及在相同更新资源条件下,使得本地数据和远程数据保持最大化同步,为进一步实现深层网数据源集成提供基础。 | ||
搜索关键词: | 一种 面向 深层 网页 增量 信息 获取 方法 | ||
【主权项】:
1.一种面向深层网页的增量信息获取方法,其特征在于包括如下步骤:步骤1:确定本地对象与远程数据源同步频率,其中远程数据源即远程Web上数据库;步骤2:利用泊松过程来表示远程数据源平均变化频率λi,其中,i=1,2,...,n;步骤3:确定平均新颖度:由步骤2得到的平均变化频率λi,确定各对象即远程Web上数据库中各数据项ei对应的同步频率fi,在满足同步资源限制的条件下,使本地数据库的平均新颖度最大,F ‾ ( S ) = 1 n Σ i = 1 n F ‾ ( e i ) = 1 n Σ i = 1 n F ‾ ( λ i , f i ) ; ]]> 步骤4:根据数据时新性确定更新频率在时刻t数据抓取系统所维护的第i个数据记录ri的时新性如下:则由N个数据记录组成的数据记录集合S的平均时新性如下:F ( S , t ) = 1 N Σ i = 1 N F ( r i , t ) . ]]> 利用拉格朗日乘子可以计算得到各对象的理论同步频率,然后按理论同步频率对对象数据进行同步,使本地数据库的平均新颖度达到最大值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110020898.5/,转载请声明来源钻瓜专利网。