[发明专利]数据处理方法、装置、存储介质及电子设备有效

申请号：	201811554828.6	申请日：	2018-12-18
公开（公告）号：	CN109766922B	公开（公告）日：	2021-10-12
发明（设计）人：	侯广健	申请（专利权）人：	东软集团股份有限公司
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京英创嘉友知识产权代理事务所(普通合伙) 11447	代理人：	曾尧;魏嘉熹
地址：	110179 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据处理方法装置存储介质电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及一种数据处理方法、装置、存储介质及电子设备，用以解决现有数学模型训练过程效率不高的技术问题。该方法包括：获取样本数据的特征参数，该样本数据是数据集合中的带有标签的数据；根据样本数据的特征参数预训练数学模型，以得到满足预设条件的建模参数以及模型输入参数，模型输入参数是部分或者全部样本数据的特征参数；根据数据集合中无标签数据的特征参数与模型输入参数之间的相似度，从数据集合中选取用于训练数学模型的目标样本数据；根据建模参数对数学模型进行初始化，并根据目标样本数据对数学模型进行训练。

技术领域

本公开涉及机器学习领域，具体地，涉及一种数据处理方法、装置、存储介质及电子设备。

背景技术

机器学习技术广泛应用于各个领域，在某些特殊的应用场景中，由于带标签的样本数据获取成本高、周期长等因素，致使项目面临着样本数量不足的问题。在现有技术中，通常采用如下方法在小样本数据下完成模型训练：

1、通过meta-learning的方式。在该方式中，事先从与本次问题相近的若干问题中获得先验知识，并以此作为初始建模参数对模型进行训练。然而，寻找与本次问题相近的问题较为困难，且依然基于现有的少量样本数据进行模型训练，所得到的模型泛化能力不佳。

2、通过人工标注数据扩充样本数量。该方式依赖于人工随机选取样本数据并进行数据标注，数据选取的目的性不强，对于提升模型训练效果的作用可能不大。

发明内容

本公开的目的是提供一种数据处理方法、装置、存储介质及电子设备，用以解决现有数学模型训练过程效率不高的技术问题。

为了实现上述目的，本公开第一方面提供一种数据处理方法，所述方法包括：

获取样本数据的特征参数，所述样本数据是数据集合中的带有标签的数据；

根据所述样本数据的特征参数预训练数学模型，以得到满足预设条件的建模参数以及模型输入参数，所述模型输入参数是部分或者全部所述样本数据的特征参数；

根据所述数据集合中无标签数据的特征参数与所述模型输入参数之间的相似度，从所述数据集合中选取用于训练所述数学模型的目标样本数据；