[发明专利]数据处理方法、装置、存储介质及电子设备有效
申请号: | 201811554828.6 | 申请日: | 2018-12-18 |
公开(公告)号: | CN109766922B | 公开(公告)日: | 2021-10-12 |
发明(设计)人: | 侯广健 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 曾尧;魏嘉熹 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 存储 介质 电子设备 | ||
本公开涉及一种数据处理方法、装置、存储介质及电子设备,用以解决现有数学模型训练过程效率不高的技术问题。该方法包括:获取样本数据的特征参数,该样本数据是数据集合中的带有标签的数据;根据样本数据的特征参数预训练数学模型,以得到满足预设条件的建模参数以及模型输入参数,模型输入参数是部分或者全部样本数据的特征参数;根据数据集合中无标签数据的特征参数与模型输入参数之间的相似度,从数据集合中选取用于训练数学模型的目标样本数据;根据建模参数对数学模型进行初始化,并根据目标样本数据对数学模型进行训练。
技术领域
本公开涉及机器学习领域,具体地,涉及一种数据处理方法、装置、存储介质及电子设备。
背景技术
机器学习技术广泛应用于各个领域,在某些特殊的应用场景中,由于带标签的样本数据获取成本高、周期长等因素,致使项目面临着样本数量不足的问题。在现有技术中,通常采用如下方法在小样本数据下完成模型训练:
1、通过meta-learning的方式。在该方式中,事先从与本次问题相近的若干问题中获得先验知识,并以此作为初始建模参数对模型进行训练。然而,寻找与本次问题相近的问题较为困难,且依然基于现有的少量样本数据进行模型训练,所得到的模型泛化能力不佳。
2、通过人工标注数据扩充样本数量。该方式依赖于人工随机选取样本数据并进行数据标注,数据选取的目的性不强,对于提升模型训练效果的作用可能不大。
发明内容
本公开的目的是提供一种数据处理方法、装置、存储介质及电子设备,用以解决现有数学模型训练过程效率不高的技术问题。
为了实现上述目的,本公开第一方面提供一种数据处理方法,所述方法包括:
获取样本数据的特征参数,所述样本数据是数据集合中的带有标签的数据;
根据所述样本数据的特征参数预训练数学模型,以得到满足预设条件的建模参数以及模型输入参数,所述模型输入参数是部分或者全部所述样本数据的特征参数;
根据所述数据集合中无标签数据的特征参数与所述模型输入参数之间的相似度,从所述数据集合中选取用于训练所述数学模型的目标样本数据;
根据所述建模参数对所述数学模型进行初始化,并根据所述目标样本数据对所述数学模型进行训练。
可选地,所述根据所述样本数据的特征参数预训练数学模型,以得到满足预设条件的建模参数以及模型输入参数,包括:
设定一初始建模参数θ1;
根据所述初始建模参数θ1和所述样本数据的特征参数θ2通过公式进行迭代更新,并确定满足如下目标函数的参数θ′:
其中,θ=[θ1,θ2],θ′=[θ1′,θ2′],θ1′为本次迭代计算得到的建模参数,θ2′为本次迭代选用的特征参数,α为超参数,L(fθ)表示当前迭代在参数θ下的Loss值;
将满足所述目标函数的θ1′和θ2′分别作为所述满足预设条件的建模参数以及模型输入参数。
可选地,所述根据所述数据集合中无标签数据的特征参数与所述模型输入参数之间的相似度,从所述数据集合中选取用于训练所述数学模型的目标样本数据,包括:
计算每一所述无标签数据的特征参数与所述模型输入参数中任一所述样本数据的特征参数的距离信息;
将所述距离信息小于预设距离阈值的无标签数据作为所述目标样本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811554828.6/2.html,转载请声明来源钻瓜专利网。