[发明专利]一种基于深度学习的样本生成方法、存储介质及电子设备在审
申请号: | 202310388434.2 | 申请日: | 2023-04-12 |
公开(公告)号: | CN116403045A | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 刘圭圭;李凡平;石柱国 | 申请(专利权)人: | 以萨技术股份有限公司;青岛以萨数据技术有限公司 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/82;G06V10/40;G06N3/09;G06N3/04 |
代理公司: | 北京锺维联合知识产权代理有限公司 11579 | 代理人: | 周利星 |
地址: | 266000 山东省青岛*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 样本 生成 方法 存储 介质 电子设备 | ||
本发明涉及样本标注领域,特别是涉及一种基于深度学习的样本生成方法、存储介质及电子设备。包括如下步骤:根据多个信息向量,生成Asubgt;i/subgt;对应的调整权重Wsubgt;i/subgt;;根据每一初始图像样本对应的调整权重,确定每一初始图像样本对应的损失函数的调整loos值;根据每一初始图像样本对应的调整loos值,优化生成器,以生成目标图像样本。本发明中较难获得的小数量级的样本,会具有更大的调整loos值,也即损失函数具有更大的惩罚值。这样就达到了增大分错较难获得的小数量级样本的成本的目的,进而使生成器更多的关注到少数类的样本,以提高生成的数量级小的样本的数量。
背景技术
在机器学习中为了使模型达到更好的学习效果需要,选择质量较高的训练样本对其进行训练。以使其获得对应的能力。但是,通常在某一项任务开始初期,相应的训练样本较少,由此会影响模型的训练效果。为了快速增加训练样本的数量,可以使用生成模型来生成大量的训练样本。如:GANs(Generative Adversarial Networks,生成对抗网络)。生成模型是一种能够从潜在空间中生成新数据样本的模型,它通常由生成器和判别器两个部分组成。生成器接收随机噪声作为输入,并生成类似于训练数据的新样本;判别器则尝试区分生成器生成的样本和真实的训练数据。这两个模型共同训练,生成器尝试最小化判别器的误差,判别器则尝试最大化其对真实数据和生成数据的准确性。
但是,在图像分类领域中,由于正常的图像样本在实际场景中更容易获取,而模糊、高曝光、颜色失真及低亮度的图像样本在实际场景中更难获取。使得在一组样本中不同类别的样本量差异非常大,进而造成样本不均衡的问题。在该情况下,由于样本类别不均衡将导致样本量少的分类所包含的特征过少,并很难从中提取规律;进而使得生成器生成的数量级小的样本质量交低,进而降低分类模型对数量级小的样本的标签准确率。
发明内容
针对上述技术问题,本发明采用的技术方案为:
根据本发明的一个方面,提供了一种基于深度学习的样本生成方法,方法包括如下步骤:
获取由生成器生成的同一批次的多个初始图像样本的调权信息A1,A2,…,Ai,…,Az,其中,Ai为该批次中第i个初始图像样本的调权信息,Ai=(ai,bi),ai为用于表示Ai各个维度上的数据的信息向量,bi为Ai的图像类别标签;z为该批次生成的初始图像样本的总数量;i=1,2,…,z;
根据A1,A2,…,Ai,…,Az中的多个信息向量,生成Ai对应的调整权重Wi;Wi满足如下条件:
其中,为bi对应的图像类别的超参数;每一图像类别对应的超参数与同一批次的多个初始图像样本中属于每一图像类别的样本数量负相关;μ为本批次多个初始图像样本对应的样本均值;δ为本批次多个初始图像样本对应的样本方差;
根据每一初始图像样本对应的调整权重,确定每一初始图像样本对应的损失函数的调整loos值;Li满足如下条件:
Li=Wi*li;其中,Li为该批次中第i个初始图像样本对应的损失函数的调整loos值;li为该批次中第i个初始图像样本对应的损失函数的初始loos值;
根据每一初始图像样本对应的调整loos值,优化生成器,以生成目标图像样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于以萨技术股份有限公司;青岛以萨数据技术有限公司,未经以萨技术股份有限公司;青岛以萨数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310388434.2/2.html,转载请声明来源钻瓜专利网。