[发明专利]基于贝叶斯混合公共因子分析器的高维数据的聚类方法有效
申请号: | 201310133415.1 | 申请日: | 2013-04-17 |
公开(公告)号: | CN103226595A | 公开(公告)日: | 2013-07-31 |
发明(设计)人: | 魏昕;李宗辰 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 汪旭东 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 贝叶斯 混合 公共 因子 分析器 数据 方法 | ||
技术领域
本发明涉及一种基于贝叶斯混合公共因子分析器的高维数据的聚类方法,属于高维数据的处理方法与应用技术领域。
背景技术
随着采集和存储技术的不断发展,高维和超高维的数据不断涌现。例如,基于内容的图像检索和文档检索中屡见不鲜的上万维人脸图像和几十万维的网页文本、语音与音频信号处理中不可避免出现的高维特征矢量、生物信息学中对生物组织进行聚类分析中的高维基因表达数据,等等。很显然,维数越高(对象的属性越多),可以更加全面地刻画所描述的对象以及更好地分辨对象。然而,当数据样本量不大的时候,过高的维数不可避免地对数据的处理提出了严峻的挑战。“维数灾难”便是一个非常棘手的问题。此外,过高的维数也带来了极高的计算负担,并且使得相关问题难以理解和表示,更不可能实现可视化。因此,如何实现对高维数据准确、高效地分析与处理,已经成为相关技术领域和实际应用中一个极具挑战性的问题。
对于大部分观测或采集到的高维数据而言,其主要信息存在于一个低维空间中。因此,如何在低维空间中有效地刻画高维数据的有用信息,从而设计出相应的降维算法,对于该问题的解决方法不仅有着重要的学术意义,而且具有重大的应用价值。混合因子分析器(MFA)是用以对高维观测数据各个维数分量之间的内部依赖关系进行建模,从而达到对数据进行降维处理的一种统计分析工具,MFA在图像与视频处理、生物信息处理等领域都有着广泛的应用。然而,基于MFA的高维数据处理方法,特别是用于聚类时,仍然存在局限性。首先,在MFA中,由于每个混合成分都具有不同的因子载荷矩阵,模型的总体参数个数较多,并且现有MFA是基于最大似然准则进行模型的推理和参数估计的,因此在高维数据的样本数目不大的时候容易出现过拟合问题;其次,也是最重要的一点,在数据聚类的应用中的大多数情况下,类别的数目预先是未知的,如果设定过高或过低,都会影响最终聚类结果的准确性,并且对于高维数据而言,这个问题将会变得更加困难,如何在降维的同时,根据高维数据自适应地确定出最优的类别数,从而获得较好地聚类性能,是高维数据聚类技术和方法中面临的难题和关键之处。本发明解决了现有技术的缺陷,提出了一种基于贝叶斯混合公共因子分析器的高维数据的聚类方法。
发明内容
本发明提出了一种基于贝叶斯混合公共因子分析器的高维数据的聚类方法,其包括以下步骤:
(1)设待聚类的高维数据集合 ,其中为高维数据的个数,每个数据的维数为;建立贝叶斯混合公共因子分析器(BMCFA)模型,用该模型来表示的分布;即,BMCFA为一个成分数为的混合模型;对于每一高维数据,其可以表示为
以概率(), (式1)
其中,为与高维数据相对应并且与成分相关的低维空间中的因子,它的维数为(), 的值根据具体问题中的大小进行选取:遍历之间的所有整数,每个候选的做一次聚类,取性能最好的那次对应的作为最终的值;为的因子载荷矩阵;误差变量服从高斯分布,其中为的对角矩阵;概率满足;
(2)根据待处理的高维数据,基于贝叶斯准则,对步骤(1)中建立好的贝叶斯混合公共因子分析器(BMCFA)模型进行推理;在完成这一推理过程后,对于每一个高维数据,可以得到与其相对应的指示变量的后验期望值,,其中表示当前高维数据是由混合模型中的第个成分产生的概率;
(3)判决:将中的最大值所对应的序号作为所最终分配到的类,即
; (式2)
用这样的方式得到高维数据集中所有数据的聚类结果。
在所述的基于贝叶斯混合公共因子分析器的高维数据的聚类方法中,对步骤(1)中所述的建立贝叶斯混合公共因子分析器(BMCFA)模型的过程中,各变量的条件似然分布、先验分布指定如下:
(1-1)设定一个与中每个数据一一对应的指示变量集合,其中与对应的为一个维矢量,在该矢量中只有一个元素为1,其余为0;当的第个元素时(此时其他元素都为0),表明是由第个成分产生的;那么,关于混合权值的条件分布为
(式3)
(1-2)用均值为,协方差矩阵为的高斯分布来定义的分布;那么,所属的集合关于,,的条件分布为
; (式4)
(1-3)根据(式1),高维数据集关于的条件分布为
; (式5)
(1-4)因子载荷矩阵的分布设定为其行向量的乘积,每个行向量服从高斯分布
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310133415.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种热分布图像在线预测方法
- 下一篇:全自动密闭制粒线系统