[发明专利]模型训练方法、装置、电子设备及存储介质在审

申请号：	202111391307.5	申请日：	2021-11-23
公开（公告）号：	CN114185962A	公开（公告）日：	2022-03-15
发明（设计）人：	赵智维;黄轩;胡文泽;王孝宇	申请（专利权）人：	深圳云天励飞技术股份有限公司
主分类号：	G06F16/2458	分类号：	G06F16/2458;G06N20/00
代理公司：	深圳驿航知识产权代理事务所(普通合伙) 44605	代理人：	杨伦
地址：	518000 广东省深圳市龙岗区园山***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	模型训练方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种模型训练方法、装置、电子设备及存储介质，该方法包括：接收筛选命令对预设数据库中存储的原始数据集进行筛选，得到多个目标数据集；原始数据集中包含元数据和资源数据，元数据用于在存储所述资源数据时作为引用信息及标注集以指向对应的资源数据；将多个所述目标数据集按照预设策略进行合并，并根据合并结果确定出结果数据集；利用所述结果数据集对待训练模型进行训练，并在满足预设终止条件时，终止训练输出所述模型。使用户不需要对数据集格式进行修改，提升了数据集的整体可用性以及可靠性，提升产出数据模型的效率，使数据模型的效果提升更好，降低了用户对数据集的操作成本。

技术领域

本发明涉及数据处理技术领域，具体涉及一种模型训练方法、装置、电子设备及存储介质。

背景技术

随着人工智能技术的进步，业界对深度学习模型效果的要求也越来越高。一般来说，对于提升模型效果的传统做法都是通过优化网络结构来进行的，近几年的研究发现，通过主动学习等方式，对模型训练数据进行选择，对模型效果的提升更显著。在现有技术中，无法以统一的方式高效开始模型训练与数据挖掘，由于每个用户所写的模型训练与数据挖掘代码都不同，导致了用户在拿到一套模型训练和数据挖掘代码以后，都需要调整自己的数据，或调整代码使之符合彼此；对于这些核心代码的修改，以及数据集格式的修改，将会降低数据集的整体可用性以及可靠性，使产出数据模型的效果降低，对数据模型的效果提升不足，用户操作成本高。

发明内容

第一方面，本发明的主要目的是提供一种模型训练方法，包括：

接收筛选命令对预设数据库中存储的原始数据集进行筛选，得到多个目标数据集；所述原始数据集中包含元数据和资源数据，所述元数据用于在存储所述资源数据时作为引用信息及标注集以指向对应的资源数据；

将多个所述目标数据集按照预设策略进行合并，并根据合并结果确定出结果数据集；

利用所述结果数据集对待训练模型进行训练，并在满足预设终止条件时，终止训练输出所述模型。

可选地，所述接收筛选命令对预设数据库中存储的原始数据集进行筛选，得到多个目标数据集包括：

根据所述筛选命令确定对应的第一类关键字和/或第二类关键字；

判断所述原始数据集中的数据是否包含所述第一类关键字和/或所述第二类关键字，以得到判断结果；

根据所述判断结果确定对应的数据以得到多个目标数据集。

可选地，所述预设策略包括第一合并策略、第二合并策略及第三合并策略；所述将多个所述目标数据集按照预设策略进行合并，并根据合并结果确定出结果数据集包括：

在所述预设策略为第一合并策略的情况下，在合并至少两个所述目标数据集中的相同资源数据时，将第一个资源数据作为结果进行合并；

在所述预设策略为第二合并策略的情况下，在合并至少两个所述目标数据集中的相同资源数据时，将最后一个资源数据作为结果进行合并；