[发明专利]一种深度图像聚类方法、系统、设备、介质及终端在审
申请号: | 202111086097.9 | 申请日: | 2021-09-16 |
公开(公告)号: | CN113971735A | 公开(公告)日: | 2022-01-25 |
发明(设计)人: | 胡牛犇;王卫卫;冯象初 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06V10/44 | 分类号: | G06V10/44;G06V10/74;G06V10/762;G06V10/764;G06K9/62 |
代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 何畏 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 图像 方法 系统 设备 介质 终端 | ||
本发明属于无监督图像识别技术领域,公开了一种深度图像聚类方法、系统、设备、介质及终端,所述深度图像聚类方法包括:输入一组图片,通过SIMO自编码器中的编码器得到每一副图片的多组编码;将每幅图片的多组编码以及对这些编码进行信息融合后的编码分别输入相同的解码器中得到从重构的图片;将重构的图片与对输入图片经过数据增强后得到的图片计算重构损失,进行网络的预训练;待预训练结束后,对融合编码进行聚类得到对比聚类损失加入训练过程中进行联合训练,实现参数优化;联合训练结束后,对整个数据集进行特征提取,得到融合编码输入到传统的聚类算法得到聚类结果。本发明可同时提取单幅图像多个角度的语义信息,增加信息的丰富性。
技术领域
本发明属于无监督图像识别技术领域,尤其涉及一种深度图像聚类方法、系统、设备、介质及终端。
背景技术
目前,随着大数据时代的快速到来,网络上每天都产生数以亿计的图像数据,如果能够充分的利用和挖掘出海量图片数据的信息,那么将能够产生极高的商业价值。例如,图像识别便是一种挖掘图片价值的具体应用场景,而大部分的传统数据挖掘算法不能直接处理图片数据,所以往往由人手动的计算图像的各种特征进而使用这些算法进一步的识别。
近年来,随着计算机视觉技术领域的发展,基于深度学习的图像识别技术已经发展的极为成熟,尤其在有图像标注的情况下,在2015年,深度学习方法对图像的识别精度就已经超过了人类,近年来更是大量的落地于各个领域,如学校、公司、医院等机构的人脸识别门禁系统,交通场景中的车体识别与车道线识别系统中,且都有比较好的效果。除了有图像标注情况下,也有一些方法研究在没有图像标注时也能够对图像进行识别,一般均采用深度学习进行图像的低维特征提取然后使用传统的无监督机器学习方法进行识别。具体的,均使用深度神经网络中的自编码器结构在优化重构损失和聚类损失下进行特征提取,之后使用KMeans或者GMM算法进行聚类,前者涉及的网络结构有去噪自编码器、变分自编码器、对抗自编码器等,而损失函数则有KMeansLoss、Cluster assignment hardening loss、Locality-preserving loss等。
目前,基于无监督图像识别的技术一般步骤均是先使用某种自编码器结构进行图像的特征提取,如去噪自编码器、变分自编码器等,此外也会加入某种基于欧氏距离的聚类损失来引导网络输出有利于聚类的编码。但一方面现阶段的这些结构都只是一味的将图像压缩到一组编码上,从物理意义上看,这组编码往往只能代表图像的某个角度的信息,这就意味着在特征提取的过程中造成了大量的信息损失,另一方面,现阶段的基于欧式距离的聚类损失的显著假设前提是编码的输出需要是欧氏空间可分的,但神经网络往往是非线性的,如此该假设很难满足,进而难以保证加入这些损失后是否真的能显著提高聚类的效果。因此,亟需一种新的深度图像聚类方法、系统。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有基于无监督图像识别的技术中,现阶段的结构都只是一味的将图像压缩到一组编码上,从物理意义上看,这组编码往往只能代表图像的某个角度的信息,这就意味着在特征提取的过程中造成了大量的信息损失。
(2)现阶段的基于欧式距离的聚类损失的显著假设前提是编码的输出需要是欧氏空间可分的,但神经网络往往是非线性的,如此该假设很难满足,进而难以保证加入这些损失后是否真的能显著提高聚类的效果。
解决以上问题及缺陷的难度为:首先,对于(1)其难度在于如何在不显著增加模型参数量与训练时间下,充分挖掘和提取出图像的多组语义信息帮助聚类。对于(2)其难度在于如何在编码不满足欧式空间分布的假设下,使用一种聚类损失能够保证聚类效果的提升。
解决以上问题及缺陷的意义为:如果能够解决(1),则除了聚类问题外,更大的意义在于提供了一种自编码器压缩图片编码且保留和突出图片极有价值的语义信息的新范式,除聚类外,还可用于其它任务,且除图片外,也可用于其它类型数据(如文本、语音等)。若能解决(2)事实上使得编码在非欧氏空间下依旧可分,那么可以适用于更多的数据集。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111086097.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种酮基物制备方法
- 下一篇:一种散热型控温作业胶辊式砻谷机
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序