[发明专利]数据处理方法、装置、存储介质及电子设备有效
申请号: | 201811554828.6 | 申请日: | 2018-12-18 |
公开(公告)号: | CN109766922B | 公开(公告)日: | 2021-10-12 |
发明(设计)人: | 侯广健 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 曾尧;魏嘉熹 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 存储 介质 电子设备 | ||
1.一种数据处理方法,其特征在于,所述方法包括:
获取样本数据的特征参数,所述样本数据是数据集合中的带有标签的数据,所述样本数据为图片数据;
根据所述样本数据的特征参数预训练数学模型,以得到满足预设条件的建模参数以及模型输入参数,所述模型输入参数是部分或者全部所述样本数据的特征参数;
根据所述数据集合中无标签数据的特征参数与所述模型输入参数之间的相似度,从所述数据集合中选取用于训练所述数学模型的目标样本数据,其中,所述目标样本数据为未标注标签的图片数据;
根据所述建模参数对所述数学模型进行初始化,并根据所述目标样本数据对所述数学模型进行训练;
所述根据所述样本数据的特征参数预训练数学模型,以得到满足预设条件的建模参数以及模型输入参数,包括:
设定一初始建模参数θ1;
根据所述初始建模参数θ1和所述样本数据的特征参数θ2通过公式进行迭代更新,并确定满足如下目标函数的参数θ′:
其中,θ=[θ1,θ2],θ′=[θ1′,θ2′],θ1′为本次迭代计算得到的建模参数,θ2′为本次迭代选用的特征参数,α为超参数,L(fθ)表示当前迭代在参数θ下的Loss值;
将满足所述目标函数的θ1′和θ2′分别作为所述满足预设条件的建模参数以及模型输入参数。
2.根据权利要求1所述的方法,其特征在于,所述根据所述数据集合中无标签数据的特征参数与所述模型输入参数之间的相似度,从所述数据集合中选取用于训练所述数学模型的目标样本数据,包括:
计算每一所述无标签数据的特征参数与所述模型输入参数中任一所述样本数据的特征参数的距离信息;
将所述距离信息小于预设距离阈值的无标签数据作为所述目标样本数据。
3.根据权利要求2所述的方法,其特征在于,所述计算每一所述无标签数据的特征参数与所述模型输入参数中任一所述样本数据的特征参数的距离信息,包括:
通过如下公式计算任一所述无标签数据的特征参数与模型输入参数中任一所述样本数据的特征参数的距离信息dist(X,Y):
其中,X为所述无标签数据的特征参数,Y为所述样本数据的特征参数,n为特征参数的长度,xi为所述无标签数据的特征参数X中第i个特征参数,yi为模型输入参数中所述样本数据的特征参数Y中第i个特征参数。
4.根据权利要求2所述的方法,其特征在于,所述将所述距离信息小于预设距离阈值的无标签数据作为所述目标样本数据,所述方法还包括:
将所述样本数据的标签作为与所述样本数据的特征参数之间的距离信息小于第一预设距离阈值的无标签数据的标签;
将与所述样本数据的特征参数之间的距离信息大于第一预设距离阈值且小于第二预设阈值的无标签数据推荐给用户,以提醒用户对该无标签数据添加标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811554828.6/1.html,转载请声明来源钻瓜专利网。