[发明专利]一种小样本图像数据集划分方法及计算机可读存储介质在审
申请号: | 202211034501.2 | 申请日: | 2022-08-26 |
公开(公告)号: | CN115439685A | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 刘巍;李昌;张国杰;王浩 | 申请(专利权)人: | 重庆长安汽车股份有限公司 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/762;G06V10/82;G06V10/77;G06N3/04;G06N3/08 |
代理公司: | 重庆华科专利事务所 50123 | 代理人: | 康海燕 |
地址: | 400023 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 样本 图像 数据 划分 方法 计算机 可读 存储 介质 | ||
本发明提供一种小样本图像数据集划分方法及计算机刻度存储介质,包括S1.利用距离度量学习的深度神经网络获取目标图像数据集的深度特征,构造带有中心损失的损失函数优化训练网络,将目标图像数据转化为其对应的深度特征向量;S2.利用基于距离聚类算法,对获取的目标图像数据集的深度特征,按照数据集原有的类别标签,将不同图片的深度特征表示输入距离聚类算法,算法输出聚类划分中心,然后根据聚类划分中心对每个类别的图片内部进行聚类,得到每一个样本所属的层次;S3.根据聚类结果,利用分层采样的方式在每一类数据的不同层次中进行采样,得到分布均匀的训练集以及测试集,用于后续模型的训练。本发明通过距离度量学习的深度神经网络的方式使其能够得到图像数据更好的特征表达,通过该特征表达方式进行聚类并分层采样,划分出分布更均匀、训练效果更好的数据集。
技术领域
本发明涉及数据集划分方法,具体涉及一种小样本图像数据集划分方法。
背景技术
利用深度学习算法对交通标志进行检测识别已成为当前自动驾驶领域研发的趋势之一,而应用深度学习算法需要为模型的训练和更新持续提供高质量的图像数据集。在训练开发这类深度学习模型时,由于数据采集成本问题,数据集往往呈现出小样本、类别不平衡等问题,对于这种小规模的数据较难满足统计意义上的普适性和一般随机性。已有的交通标志数据集大多数为人为数据采集,由于采集数据者的方式和习惯的变化,采集来的数据可能包含着随时间变化的趋势和倾向性特点,其数据的分布并不是均匀的。当数据规模不是足够大时,简单地以随机方式对数据进行划分是不可取的,因为划分出来的训练集和测试集的数据分布是不一致的。此外,在收集数据的过程中数据很少是没有噪声的,并且采集来可用的有效数据可能仅仅只占其中小部分,并不能包含模型构建所需要的全部信息。尽管可以通过增加样本量来适当缓解这些问题,但是在一些特定条件下产生的稀有样本并不是那么容易获得,这样对于处理实际问题的完备性上又有所欠缺。依据统计学的知识和经验容易知道,准确了解数据和目标的分布特点将有助于理解数据的内在本质,这样可以帮助合理划分训练数据和测试数据,解决小规模情况下模型随机划分不稳定的问题。
因此,在数据有限的情况下训练模型时,需要找到一种能够准确把握数据自身特点并对其进行量化表示的方法,克服其在数据有限时随机划分数据引起的测试数据域和训练数据域分布漂移而导致训练得到的模型不稳定。
专利文献CN202111530779.4公开了一种数据集划分方法及装置,其利用Gapstatistic算法获取待划分数据集的目标聚类数目和K-means算法对待划分数据集进行k次聚类,采用两种划分标准评判划分后数据集的结果,去除无效划分、保留有效划分,从而提高数据集划分质量。专利文献CN201911300236.6公开了一种基于数据集距离评价样本集划分质量的方法,其是用随机抽样得到的距离分布进行概率分布估计,计算不同划分的概率,以确切的量化指标评价数据划分的质量或划分方法对特定数据的适应性。上述两份文献都是通过基于距离聚类的算法直接对数值型数据进行聚类,并根据聚类结果划分原有数据集。
现有的图像数据集划分方法通常并未对原有图像数据进行变换处理,直接利用原有图像数据进行聚类并划分数据集。但是,如果不采用合适度量方式获取图像数据的深度特征,那么现有的聚类算法将无法对图片这类高维稀疏特征的数据进行精准地划分,特别是对于更复杂(非均匀分布)小样本的数据集,划分出来的子数据集往往不能完全覆盖数据分布的特点,会导致模型具有较大的方差。
发明内容:
本发明提供一种基于距离度量学习的深度神经网络的小样本图像数据集划分方法及一种计算机可读存储介质,用以解决在划分小样本图像数据集时,得到子数据集的训练效果差,分布不均匀的问题。通过距离度量学习的深度神经网络的方式使其能够得到图像数据更好的特征表达,通过该特征表达方式进行聚类并分层采样,划分出分布更均匀、训练效果更好的数据集。
本发明的技术方案如下:
本发明提出一种小样本图像数据集划分方法,所述方法包括如下几个大步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆长安汽车股份有限公司,未经重庆长安汽车股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211034501.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:水箱及具有该水箱的机器人
- 下一篇:清洗机器人及其清洗装置
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置