[发明专利]数据处理方法、装置、电子设备及存储介质在审
申请号: | 202210927628.0 | 申请日: | 2022-08-03 |
公开(公告)号: | CN115186764A | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 郭卉 | 申请(专利权)人: | 腾讯科技(北京)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张海秀 |
地址: | 100080 北京市海淀区海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 电子设备 存储 介质 | ||
1.一种数据处理方法,其特征在于,包括:
获取待处理数据,其中,所述待处理数据为包含多媒体信息中的至少一种模态的信息的数据;
通过训练好的特征提取模型提取所述待处理数据的特征向量;
根据所述待处理数据的特征向量,确定所述待处理数据的类别,或者从数据集中确定出与所述待处理数据相匹配的目标数据;
其中,所述特征提取模型是基于多个具有至少一个标注标签的样本,对神经网络模型重复执行训练操作得到的,所述标注标签为样本的真实类别标签,每个所述标注标签为多个候选类别标签中的一个,所述神经网络模型包括第一特征提取网络和第二特征提取网络,所述特征提取模型为满足训练结束条件的第一特征提取网络;
在训练过程中,通过所述第二特征提取网络获取每个所述候选类别标签的标签特征向量,通过所述第一特征提取网络获取每个所述样本的初始特征向量,并通过融合该样本的初始特征向量和该样本的各标注标签的标签特征向量,得到该样本的目标特征向量,所述神经网络模型的训练总损失是基于各所述样本的标注标签和目标特征向量确定的。
2.根据权利要求1所述的方法,其特征在于,所述训练过程还包括:
获取每个所述候选类别标签的初始语义向量;
根据所述多个样本的标注标签,确定所述多个候选类别标签中两两标签之间的共现次数;
对于每个所述候选类别标签,根据该标签与所述多个候选类别标签中每个标签之间的共现次数,确定该标签与所述多个候选类别标签中每个标签之间的相关性,两个标签之间的相关性表征了两个标签之间的共现概率;
每个所述候选类别标签的标签特征向量是通过以下方式得到的:
基于各所述候选类别标签的初始语义向量、以及每个所述候选类别标签与所述多个候选类别标签中每个标签之间相关性,通过所述第二特征提取网络提取得到每个所述候选类别标签的标签特征向量。
3.根据权利要求2所述的方法,其特征在于,每个所述候选类别标签的标签特征向量是通过以下方式得到的:
对于每个所述候选类别标签,根据该标签与所述多个候选类别标签中每个标签之间的相关性,确定该标签与所述多个候选类别标签中每个标签之间的非相关性;
通过所述第二特征提取网络执行至少一次以下特征更新操作,并基于最后一次特征更新操作得到的每个候选类别标签的第二特征向量,得到每个所述候选类别标签的标签特征向量;
其中,所述特征更新操作包括以下步骤:
基于各所述候选类别标签的初始语义向量之间的语义相关性,通过对各所述候选类别标签的初始语义向量进行特征融合,得到每个所述候选类别标签对应的第一特征向量;
对于每个所述候选类别标签,将该标签与所述多个候选类别标签中每个标签之间的非相关性作为权重,对所述多个候选类别标签中各标签的第一特征向量进行加权融合,基于加权融合后的特征向量得到该标签的第二特征向量,并将该第二特征向量作为下一次特征更新操作时该标签的初始语义向量。
4.根据权利要求2所述的方法,其特征在于,所述对于每个所述候选类别标签,根据该标签与所述多个候选类别标签中每个标签之间的共现次数,确定该标签与所述多个候选类别标签中每个标签之间的相关性,包括:
根据所述多个样本的标注标签,确定每个所述候选类别标签在所述多个样本中的出现次数;
对于每个所述候选类别标签,将该标签与所述多个候选类别标签中每个标签的共现次数与该标签的出现次数的比值,作为该标签与所述多个候选类别标签中每个标签之间的共现概率,根据所述共现概率得到该标签与所述多个候选类别标签中每个标签之间的相关性。
5.根据权利要求1所述的方法,其特征在于,对于每个所述样本,该样本的目标特征向量是通过以下方式得到的:
若该样本的标注标签为一个,则将该标注标签的标签特征向量作为该样本的初始特征向量的权重向量,采用该权重向量对该样本的初始特征向量进行加权,基于加权后的特征向量,得到该样本的目标特征向量;
若该样本的标注标签为多个,则将该样本的多个标注标签的标签特征向量进行融合,将融合后的标签特征向量作为该样本的初始特征向量的权重向量,采用该权重向量对该样本的初始特征向量进行加权,基于加权后的特征向量得到该样本的目标特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(北京)有限公司,未经腾讯科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210927628.0/1.html,转载请声明来源钻瓜专利网。