[发明专利]一种基于分布式K-means的海量图像分类方法有效
申请号: | 201510363396.0 | 申请日: | 2015-06-26 |
公开(公告)号: | CN104933445B | 公开(公告)日: | 2019-05-14 |
发明(设计)人: | 董乐;张宁 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 李明光 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布式 means 海量 图像 分类 方法 | ||
本发明提供了一种基于分布式K‑means的海量图像分类方法,属于机器学习与图像处理技术领域。本发明可用于大规模图像分类,该方法在大数据处理平台Hadoop上采用分布式K‑means算法提取图像特征,最终实现对大规模图像进行分类的目的。本发明通过对大规模图像数据进行字典的学习,构建特征映射函数以及分类算法的设计,提出了在大数据处理平台Hadoop基础上,基于分布式K‑means的特征提取算法。该方法避免了人为设计大规模图像特征的繁琐工作,在保证分类准确度的前提下,减少了训练时间,本发明的成果在大规模数据库管理、军事、医疗等方面有着重要的意义。
技术领域
本发明属于机器学习与图像处理技术领域,涉及分布式平台上的海量图像处理,尤其涉及一种基于分布式K-means的海量图像分类方法。
背景技术
近年来,聚类算法被广泛的应用在日常生活中。在商业上,聚类算法有助于分析人员从各种消费数据库中提取出特定的消费信息,并且概括出消费信息中体现的消费模式。聚类算法是数据挖掘领域中的一个重要部分,通常可以作为一个良好的工具来发现数据库中的深层次的特征表达,同时,可以概括出每一个特定类别的特点,最重要的是,聚类算法可以作为数据挖掘领域中各个算法的预处理步骤。随着图像库的不断增大,复杂度不断增高,单机的提取人为设计的特征已经远远不能满足需求,使用并行处理无疑是一个好的解决方案。大数据处理平台Hadoop作为Map-Reduce架构的开源实现,主要用于大规模数据集的并行计算,由于架构简单,对数据密集型应用能够有效支持。本发明正是在大数据处理平台Hadoop的基础上,将单机K-means算法并行化,对输入的数据并行处理,设计并实现了基于分布式K-means的图像特征提取算法。
发明内容
本发明要解决大规模图像的特征提取问题,从而达到图像分类的目的,针对图像分类的准确度,提出一种基于分布式K-means的海量图像分类方法,研究实现在大数据处理平台Hadoop的基础上,提出并行化的图像特征提取算法,图像的多分类问题,采用DAG-SVM分类器完成最终的图像分类。
为了实现上述目的本发明采用以下技术方案:
一种基于分布式K-means的海量图像分类方法,其流程如图1所示,具体包括以下步骤:
步骤1.训练图像预处理;
输入训练图像数据集,并将每张训练图像划分成多个图像块,对每个图像块依次进行正则化和白化操作以去除干扰信息、保留关键信息,作为输入信息送给下一步处理;
步骤2.在大数据处理平台Hadoop上,将K-means算法并行化,把步骤1所得的预处理后的图像块作为输入,进行字典的提取;
步骤3.提取字典后,构建特征映射函数,将预处理后的训练图像块映射为新的特征表达;
步骤4.将步骤3获得的训练图像块的新的特征表达输入到SVM分类器中,进行图像分类训练;
步骤5.针对需要进行分类的目标图像,将其依次进行图像块划分、正则化及白化操作后,利用所述完成图像分类训练的SVM分类器进行分类。
进一步的,步骤1所述的正则化操作具体如下:
其中x(i)是输入的第i个图像块,var(i)和mean(i)分别是x(i)中所有元素的方差和平均值;σ是一个预设常量,其作用是在进行除法之前的操作,减少了噪音以及防止方差趋近于零的时候,防止除数为零,对于像素值的取值范围是[0,255],σ一般取值为10能达到很好的效果,其取值方法一般是通过做实验通过具体的效果判断的,具体过程是通过经验设置一个相对较好的值,再通过实验进行调整。
进一步的,采用PCA白化方法对正则化的每个图像块进行减少像素间相关性的处理:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510363396.0/2.html,转载请声明来源钻瓜专利网。