[发明专利]一种小样本图像数据集划分方法及计算机可读存储介质在审

专利信息
申请号: 202211034501.2 申请日: 2022-08-26
公开(公告)号: CN115439685A 公开(公告)日: 2022-12-06
发明(设计)人: 刘巍;李昌;张国杰;王浩 申请(专利权)人: 重庆长安汽车股份有限公司
主分类号: G06V10/764 分类号: G06V10/764;G06V10/762;G06V10/82;G06V10/77;G06N3/04;G06N3/08
代理公司: 重庆华科专利事务所 50123 代理人: 康海燕
地址: 400023 *** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 样本 图像 数据 划分 方法 计算机 可读 存储 介质
【说明书】:

本发明提供一种小样本图像数据集划分方法及计算机刻度存储介质,包括S1.利用距离度量学习的深度神经网络获取目标图像数据集的深度特征,构造带有中心损失的损失函数优化训练网络,将目标图像数据转化为其对应的深度特征向量;S2.利用基于距离聚类算法,对获取的目标图像数据集的深度特征,按照数据集原有的类别标签,将不同图片的深度特征表示输入距离聚类算法,算法输出聚类划分中心,然后根据聚类划分中心对每个类别的图片内部进行聚类,得到每一个样本所属的层次;S3.根据聚类结果,利用分层采样的方式在每一类数据的不同层次中进行采样,得到分布均匀的训练集以及测试集,用于后续模型的训练。本发明通过距离度量学习的深度神经网络的方式使其能够得到图像数据更好的特征表达,通过该特征表达方式进行聚类并分层采样,划分出分布更均匀、训练效果更好的数据集。

技术领域

本发明涉及数据集划分方法,具体涉及一种小样本图像数据集划分方法。

背景技术

利用深度学习算法对交通标志进行检测识别已成为当前自动驾驶领域研发的趋势之一,而应用深度学习算法需要为模型的训练和更新持续提供高质量的图像数据集。在训练开发这类深度学习模型时,由于数据采集成本问题,数据集往往呈现出小样本、类别不平衡等问题,对于这种小规模的数据较难满足统计意义上的普适性和一般随机性。已有的交通标志数据集大多数为人为数据采集,由于采集数据者的方式和习惯的变化,采集来的数据可能包含着随时间变化的趋势和倾向性特点,其数据的分布并不是均匀的。当数据规模不是足够大时,简单地以随机方式对数据进行划分是不可取的,因为划分出来的训练集和测试集的数据分布是不一致的。此外,在收集数据的过程中数据很少是没有噪声的,并且采集来可用的有效数据可能仅仅只占其中小部分,并不能包含模型构建所需要的全部信息。尽管可以通过增加样本量来适当缓解这些问题,但是在一些特定条件下产生的稀有样本并不是那么容易获得,这样对于处理实际问题的完备性上又有所欠缺。依据统计学的知识和经验容易知道,准确了解数据和目标的分布特点将有助于理解数据的内在本质,这样可以帮助合理划分训练数据和测试数据,解决小规模情况下模型随机划分不稳定的问题。

因此,在数据有限的情况下训练模型时,需要找到一种能够准确把握数据自身特点并对其进行量化表示的方法,克服其在数据有限时随机划分数据引起的测试数据域和训练数据域分布漂移而导致训练得到的模型不稳定。

专利文献CN202111530779.4公开了一种数据集划分方法及装置,其利用Gapstatistic算法获取待划分数据集的目标聚类数目和K-means算法对待划分数据集进行k次聚类,采用两种划分标准评判划分后数据集的结果,去除无效划分、保留有效划分,从而提高数据集划分质量。专利文献CN201911300236.6公开了一种基于数据集距离评价样本集划分质量的方法,其是用随机抽样得到的距离分布进行概率分布估计,计算不同划分的概率,以确切的量化指标评价数据划分的质量或划分方法对特定数据的适应性。上述两份文献都是通过基于距离聚类的算法直接对数值型数据进行聚类,并根据聚类结果划分原有数据集。

现有的图像数据集划分方法通常并未对原有图像数据进行变换处理,直接利用原有图像数据进行聚类并划分数据集。但是,如果不采用合适度量方式获取图像数据的深度特征,那么现有的聚类算法将无法对图片这类高维稀疏特征的数据进行精准地划分,特别是对于更复杂(非均匀分布)小样本的数据集,划分出来的子数据集往往不能完全覆盖数据分布的特点,会导致模型具有较大的方差。

发明内容:

本发明提供一种基于距离度量学习的深度神经网络的小样本图像数据集划分方法及一种计算机可读存储介质,用以解决在划分小样本图像数据集时,得到子数据集的训练效果差,分布不均匀的问题。通过距离度量学习的深度神经网络的方式使其能够得到图像数据更好的特征表达,通过该特征表达方式进行聚类并分层采样,划分出分布更均匀、训练效果更好的数据集。

本发明的技术方案如下:

本发明提出一种小样本图像数据集划分方法,所述方法包括如下几个大步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆长安汽车股份有限公司,未经重庆长安汽车股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211034501.2/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top