[发明专利]数据处理方法及装置在审

申请号：	202210006294.3	申请日：	2022-01-04
公开（公告）号：	CN114358313A	公开（公告）日：	2022-04-15
发明（设计）人：	王自越	申请（专利权）人：	上海哔哩哔哩科技有限公司
主分类号：	G06N20/00	分类号：	G06N20/00;G06V40/16;G06V20/68;G06V10/70;G06F40/279
代理公司：	北京智信禾专利代理有限公司 11637	代理人：	刘晓楠
地址：	200433 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供数据处理方法及装置，所述方法包括：获取第一样本数据和与第一样本数据具有业务关联关系的第二样本数据；根据第一样本数据和第一样本标签训练获得第一业务模型，根据第二样本数据和第二样本标签训练获得第二业务模型；将第一样本数据输入至第二业务模型，并将第二样本数据输入至第一业务模型；获取第二业务模型输出的第一目标数据和第一业务模型输出的第二目标数据；基于第一目标数据和第二目标数据构建训练数据集。通过使用多阶段预训练，以及使用第一业务模型和第二业务模型进行标注，来解决部分标签缺失问题，和数据集之间定义不一致问题，扩充了目标业务模型的训练数据，提高目标业务模型的学习训练效果。

技术领域

本申请涉及人工智能技术领域，特别涉及数据处理方法。本申请同时涉及数据处理装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

随着人工智能技术的发展，多任务深度学习模型的应用越来越多。例如，在人脸识别领域下，可以基于识别鼻子、眼睛、发型等属性识别出人员身份。在多任务深度学习模型的训练过程中，多任务深度学习模型往往需要大量的具有所有标注标签的数据，但是由于具有所有标注标签的训练数据采集难度大，获取成本高的问题，使得多任务学习模型的训练数据的数量不足，导致模型训练困难、训练效果不好。因此，在多任务学习模型的训练数据数量少的情况下，如何扩充训练数据的数量，从而能够更好地对多任务学习模型进行训练、减少模型训练难度是目前亟需解决的问题。

发明内容

有鉴于此，本申请实施例提供了数据处理方法。本申请同时涉及数据处理装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的训练数据不足、获取成本高的问题。

根据本申请实施例的第一方面，提供了一种数据处理方法，包括：

获取第一样本数据和与所述第一样本数据具有业务关联关系的第二样本数据，其中，所述第一样本数据标注有第一样本标签，所述第二样本数据标注有第二样本标签；

根据所述第一样本数据和所述第一样本标签训练获得第一业务模型，根据所述第二样本数据和所述第二样本标签训练获得第二业务模型；

将所述第一样本数据输入至所述第二业务模型，并将所述第二样本数据输入至所述第一业务模型；

获取所述第二业务模型输出的第一目标数据和所述第一业务模型输出的第二目标数据，其中，所述第一目标数据和所述第二目标数据均标注有第一样本标签和第二样本标签；

基于所述第一目标数据和所述第二目标数据构建训练数据集。

根据本申请实施例的第二方面，提供了另一种数据处理方法，包括：

获取至少两个初始样本集合，其中，每个初始样本集合间具有业务关联关系，每个初始样本集合中的样本数据标注有对应的训练标签；

根据每个初始样本集合训练对应的初始业务模型；

基于预设规则通过每个初始业务模型处理每个初始样本集合；