[发明专利]一种数据探查方法和系统、数据挖掘模型更新方法和系统在审
申请号: | 202110383259.9 | 申请日: | 2021-04-09 |
公开(公告)号: | CN113051317A | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 蒋博劼 | 申请(专利权)人: | 上海云从企业发展有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/22;G06F16/2455;G06F16/28 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 李铁 |
地址: | 201203 上海市浦东新区中国(上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 探查 方法 系统 挖掘 模型 更新 | ||
本发明提供一种数据探查方法和系统、数据挖掘模型更新方法和系统,通过对目标数据集进行元信息推导,获取目标数据集中所有样本数据的特征类型;再对每个特征类型对应的样本数据进行探查,获取对应的探查结果;所述探查包括以下至少之一:指标探查、数据分布探查;以及基于指标探查结果计算数据集之间的稳定性指标值,并在稳定性指标值大于预设阈值时,更新数据挖掘模型。本发明可以基于元信息的基础上通过对样本数据进行数据探查来判断是否需要更新数据挖掘模型,从而使数据挖掘模型能够适应包含新增样本在内的所有样本数据。本发明无需大量人工介入,可以自动计算数据特征的统计信息,生成特征分布图像,并对数据元信息做出较为准确的推导。
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据探查方法和系统、一种数据挖掘模型更新方法和系统、计算机设备及机器可读介质。
背景技术
现如今,大数据表格型数据是机器学习数据挖掘任务的主要输入形式,例如互联网公司、银行、政府数据库、数据仓库中的个人基本信息、人口统计学信息、行为日志、交易流水等等。机器学习数据挖掘模型通常是以这些信息作为输入的训练样本,完成分类、回归或排序任务,最终实现推荐、营销、风控等业务目的。然后,训练出的数据挖掘模型在一定程度上具有时效性,随着时间的推移,新增样本和此前用于建模的样本难免会出现一定程度的分布便宜,导致由原始训练样本拟合训练出的数据挖掘模型不再适用于新增样本。因此,对于训练样本和新增样本,需要这些样本进行数据探查,通过数据探查结果来判断各重要指标特征的分布情况,作为更新数据挖掘模型的判断基础。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种数据探查方法和系统、数据挖掘模型更新方法和系统,用于解决现有技术中存在的技术问题。
为实现上述目的及其他相关目的,本发明提供一种数据探查方法,应用于计算机模型训练过程,包括以下步骤:
对目标数据集进行元信息推导,获取所述目标数据集中所有样本数据的特征类型;
对每个特征类型对应的样本数据进行探查,获取对应的探查结果;所述探查包括以下至少之一:指标探查、数据分布探查。
可选地,若所述样本数据的特征类型包括连续数值型特征和离散型特征,则获取指标探查结果的过程包括:
确定连续数值型特征样本数据的统计指标;
按照确定出的统计指标计算连续数值型特征样本数据的指标值;
根据确定出的统计指标和计算出的指标值对连续数值型特征样本数据进行分箱处理,并统计每个分箱区间内的样本数据占所有样本数据的比例;
将连续数值型特征样本数据进行正样本和负样本区分,并获取每个分箱区间内正样本和负样本的比例,得到连续数值型特征样本数据的指标探查结果;
和/或,确定离散型特征样本数据的统计指标;
按照确定出的统计指标计算出离散型特征样本数据的指标值,得到离散型特征样本数据的指标探查结果。
可选地,还包括根据所述指标探查结果对每个特征类型对应的样本数据进行分布探查,按照分布探查结果形成并显示在目标场景下的分布图像;其中,所述连续数值型特征的目标场景包括二分类场景,所述离散型特征的目标场景包括回归场景。
可选地,若对连续数值型特征样本数据进行分布探查,则有:
对连续数值型特征对应的样本数据进行两两组合,且将每个组合中的其中一个样本数据作为所述分布图像的横轴值,另一个样本数据作为所述分布图像的纵轴值;基于所述横轴值和纵轴值形成样本数据点,并将所述样本数据点填入所述分布图像中显示;
或者,计算任意两个连续数值型特征样本数据之间的距离,根据距离计算结果对所有连续数值型特征样本数据进行聚类,并将聚类后的样本数据填入所述分布图像中显示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海云从企业发展有限公司,未经上海云从企业发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110383259.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置