[发明专利]样本数据的获取方法、装置、设备及存储介质在审
申请号: | 201910785869.4 | 申请日: | 2019-08-23 |
公开(公告)号: | CN112416911A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 郭酉晨;陈颖;仇贲 | 申请(专利权)人: | 广州虎牙科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 511400 广东省广州市番禺*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 数据 获取 方法 装置 设备 存储 介质 | ||
本发明实施例公开了一种样本数据的获取方法、装置、设备及存储介质。该方法包括:对直播数据库中的原始数据进行抽样,获得样本数据;对所述样本数据进行数据处理,并判断所述样本数据是否满足设定条件;若不满足,则对所述原始数据进行重新抽样,获得新抽样的样本数据。本发明实施例提供的样本数据的获取方法,对抽样数据进行数据处理,当抽样数据不满足设定条件时进行重新抽样,使得样本数据满足设定条件,可以保证样本数据的有效性。
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种样本数据的获取方法、装置、设备及存储介质。
背景技术
随着互联网技术的快速发展,不断的产生大量的互联网数据。其中,作为一种非常有效的数据生产组织方式,数据中台在互联网行业中获得了广泛关注,假设数据中台服务对各技术业务的快速变化有着非常重要的作用。
但是在方便使用数据的过程中也会涉及到数据安全及敏感性的问题,因此需要设计样本数据库从总体进行抽样,这样既方便用户对数据的研究,也在一定程度上保证数据安全。但是抽样数据是否可以有效的代表原始数据对数据的研究非常重要,因而需要对样本数据的质量进行检验。
发明内容
本发明实施例提供一种样本数据的获取方法、装置、设备及存储介质,以实现对样本数据质量的检验,从而保证样本数据的有效性。
第一方面,本发明实施例提供了一种样本数据的获取方法,该方法包括:
对直播数据库中的原始数据进行抽样,获得样本数据;
对所述样本数据进行数据处理,并判断所述样本数据是否满足设定条件;
若不满足,则对所述原始数据进行重新抽样,获得新抽样的样本数据。
进一步地,对所述样本数据进行数据处理,包括:
确定所述样本数据的数值类型;所述数值类型包括连续型数值和离散型数值;
根据所述数值类型确定对应的数据处理方案。
进一步地,若所述样本数据的数值类型为连续型数值,则根据所述数值类型确定对应的数据处理方案,包括:
根据原始数据对所述样本数据进行如下至少一项的数据处理:均值差异检验、分布差异检验、方差齐性检验或者效应量检验。
进一步地,根据原始数据对所述样本数据进行均值差异检验包括:根据原始数据对所述样本数据进行Z检验,获得样本数据和原始数据间的平均值差异;
根据原始数据对所述样本数据进行分布差异检验包括:根据原始数据对样本数据进行KS检验,获得样本数据与原始数据间的分布差异;
根据原始数据对所述样本数据进行方差齐性检验包括:根据原始数据对所述样本数据进行F检验,获得样本数据和原始数据的方差齐性。
进一步地,判断所述样本数据是否满足设定条件,包括:
若样本数据与原始数据间的平均值差异、分布差异、方差齐性和效应量中的至少一个满足第一子设定条件,则所述样本数据满足设定条件。
进一步地,若所述样本数据的数值类型为离散型数值,则根据所述数值类型确定对应的数据处理方案,包括:
根据原始数据对所述样本数据进行如下至少一项的数据处理:卡方同质性检验及海林格距离检验。
进一步地,判断所述样本数据是否满足设定条件,包括:
若样本数据与原始数据间的卡方同质性和/或海林格距离满足第二子设定条件,则所述样本数据满足设定条件。
进一步地,对所述原始数据进行重新抽样,获得新抽样的样本数据,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州虎牙科技有限公司,未经广州虎牙科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910785869.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电机、送风装置和家用电器
- 下一篇:送风装置和家用电器
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置