[发明专利]一种大数据遗漏率分析方法在审
申请号: | 201810444690.8 | 申请日: | 2018-05-10 |
公开(公告)号: | CN108681579A | 公开(公告)日: | 2018-10-19 |
发明(设计)人: | 高强 | 申请(专利权)人: | 北京鼎泰智源科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京中企鸿阳知识产权代理事务所(普通合伙) 11487 | 代理人: | 郭鸿雁 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种大数据遗漏率分析方法,包括:步骤S1,设置多线程任务方式采集目标采集源中的大数据,对采集任务设置优先级策略,根据优先级进行数据采集;其中,在对所述目标采集源进行初次采集时,采用预设参数设置方式对数据采用逐条逐页采集,直至所述目标采集源中的数据全部采集完成;步骤S2,对所述步骤S1中已经采集过的目标采集源中的数据源网站设置增量采集模式和定时检测任务,实现对上述数据源网站中新增数据和更新数据的补充采集;步骤S3,对采集到的数据进行分析,统计遗漏率P。本发明,可以实现目标领域单位数据源数据采集无遗漏。 | ||
搜索关键词: | 采集 采集源 遗漏 大数据 数据源 网站 优先级策略 采集目标 单位数据 定时检测 更新数据 目标领域 任务方式 任务设置 设置方式 数据采集 数据采用 预设参数 增量采集 分析 多线程 源数据 逐页 补充 统计 | ||
【主权项】:
1.一种大数据遗漏率分析方法,其特征在于,包括如下步骤:步骤S1,设置多线程任务方式采集目标采集源中的大数据,对采集任务设置优先级策略,根据优先级进行数据采集;其中,在对所述目标采集源进行初次采集时,采用预设参数设置方式对数据采用逐条逐页采集,直至所述目标采集源中的数据全部采集完成;步骤S2,对所述步骤S1中已经采集过的目标采集源中的数据源网站设置增量采集模式和定时检测任务,实现对上述数据源网站中新增数据和更新数据的补充采集;步骤S3,对采集到的数据进行分析,统计遗漏率P,包括:公布型遗漏率分值p1:(1‑采集数据总量/公布数据总量)*100%,公布型遗漏率权值w1;查询型遗漏率分值p2:(1‑抽查已采集数/抽查样本数据总量)*100%,查询型遗漏率权值w2;同行同数据对比分值p3:采集数据量/同行数据总量*100%,同行同数据对比权值w3;P=p1*w1+p2*w2+p3*w3。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京鼎泰智源科技有限公司,未经北京鼎泰智源科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810444690.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种新型的库结构数据索引方法
- 下一篇:一种基于链接预测的服务组合推荐方法