[发明专利]模型训练方法、样本生成方法、装置、电子设备及存储介质在审

申请号：	201911122452.6	申请日：	2019-11-15
公开（公告）号：	CN110929772A	公开（公告）日：	2020-03-27
发明（设计）人：	郭晓锋;谭颖;李海	申请（专利权）人：	北京奇艺世纪科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/08;G06N3/04
代理公司：	北京华夏泰和知识产权代理有限公司 11662	代理人：	刘蔓莉
地址：	100080 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	模型训练方法样本生成装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种模型训练方法、样本生成方法、装置、电子设备及存储介质，其中，模型训练方法包括：在数据集中提取初始样本及与所述初始样本对应的类别标签；利用所述初始样本及所述类别标签，对预先建立的变分自编码器进行训练，直至所述变分自编码器收敛，所述变分自编码器包括编码器和解码器；将训练完成的所述变分自编码器中的解码器作为样本生成模型，所述样本生成模型用于生成训练样本。本发明实施例可以生成用于自动生成训练样本的样本生成模型，便于利用样本生成模型自动生成训练样本，整个过程简单便捷，节省人工收集训练样本的时间和精力，提高训练样本的收集效率。

技术领域

本发明涉及计算机领域，尤其涉及一种模型训练方法、样本生成方法、装置、电子设备及存储介质。

背景技术

大数据时代的到来和高性能计算设备(如GPU，TPU)的算力日益提升，使得人工智能取得了长足的发展。

然而，现有的人工智能算法往往依赖大量的标注数据进行训练，比如：著名的数据集ImageNet中包含上千万张标注好类别的图片，每一张图片都是使用相机拍照，或者其他方式搜集而来，每一张图片由人工标注、核验，整个过程费时费力，且耗费大量的资金。

发明内容

为了解决上述技术问题或者至少部分地解决上述人工搜集训练样本时，每一张图片由人工标注、核验，整个过程费时费力，且耗费大量的资金的技术问题，本发明提供了一种模型训练方法、样本生成方法、装置、电子设备及存储介质。

第一方面，本发明提供了一种模型训练方法，包括：

在数据集中提取初始样本及与所述初始样本对应的类别标签；

利用所述初始样本及所述类别标签，对预先建立的变分自编码器进行训练，直至所述变分自编码器收敛，所述变分自编码器包括编码器和解码器；

将所述变分自编码器中的解码器确定为用于生成训练样本的样本生成模型。

可选地，将所述初始样本输入至所述变分自编码器的编码器，所述编码器输出特征向量；