[发明专利]一种面向Deep Web的自适应增量数据采集方法有效
申请号: | 201910215453.9 | 申请日: | 2019-03-21 |
公开(公告)号: | CN109977285B | 公开(公告)日: | 2023-03-10 |
发明(设计)人: | 裘嵘;杨俊杰;张祖平;罗律 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/906 |
代理公司: | 长沙轩荣专利代理有限公司 43235 | 代理人: | 张勇 |
地址: | 410000 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明公开了一种面向Deep Web的自适应增量数据采集方法,包括以下步骤:步骤1:对给定的结构化的DeepWeb数据源进行多个周期的全量采集;步骤2:利用位于本地数据仓库的初始收集到的数据进行数据源聚类;步骤3:分别统计各个类别中数据源的数量,得到抽样数据源的采样数据;步骤4:对采样数据进行分析预测;步骤5:调度器根据对各数据源s的下载概率 |
||
搜索关键词: | 一种 面向 deep web 自适应 增量 数据 采集 方法 | ||
【主权项】:
1.一种面向Deep Web的自适应增量数据采集方法,其特征在于,包括以下步骤:步骤1:对给定的结构化的DeepWeb数据源进行多个周期的全量采集;步骤2:利用位于本地数据仓库的初始收集到的数据进行数据源聚类;步骤3:分别统计各个类别中数据源的数量,采用分层抽样的方法计算每个类别按照一定比例需要抽取的样本数量,然后向下载器发出采样请求,得到抽样数据源的采样数据;步骤4:对所述采样数据进行分析预测;步骤5:调度器根据对各数据源s的下载概率
的计算,在每个数据采集周期选择平均下载概率最高的类,并调度下载器进行数据下载,将增量更新的结果加入到本地数据仓库;步骤6:在每一个数据采集周期结束后,需要对各次下载结果进行评估(计算
的值),用于在步骤4中影响数据源s的采集概率![]()
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910215453.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种机票购买失败原因的诊断方法
- 下一篇:基于内容的信息检索方法