[发明专利]基于贝叶斯混合公共因子分析器的高维数据的聚类方法有效
申请号: | 201310133415.1 | 申请日: | 2013-04-17 |
公开(公告)号: | CN103226595A | 公开(公告)日: | 2013-07-31 |
发明(设计)人: | 魏昕;李宗辰 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 汪旭东 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 贝叶斯 混合 公共 因子 分析器 数据 方法 | ||
1.基于贝叶斯混合公共因子分析器的高维数据的聚类方法,其特征在于,包括以下步骤:
(1)设待聚类的高维数据集合 ,其中为高维数据的个数,每个数据的维数为;建立贝叶斯混合公共因子分析器(BMCFA)模型,用该模型来表示的分布;即,BMCFA为一个成分数为的混合模型;对于每一高维数据,其可以表示为
以概率(), (式1)
其中,为与高维数据相对应并且与成分相关的低维空间中的因子,它的维数为(), 的值根据具体问题中的大小进行选取:遍历之间的所有整数,每个候选的做一次聚类,取性能最好的那次对应的作为最终的值;为的因子载荷矩阵;误差变量服从高斯分布,其中为的对角矩阵;概率满足;
(2)根据待处理的高维数据,基于贝叶斯准则,对步骤(1)中建立好的贝叶斯混合公共因子分析器(BMCFA)模型进行推理;在完成这一推理过程后,对于每一个高维数据,可以得到与其相对应的指示变量的后验期望值,,其中表示当前高维数据是由混合模型中的第个成分产生的概率;
(3)判决:将中的最大值所对应的序号作为所最终分配到的类,即
; (式2)
用这样的方式得到高维数据集中所有数据的聚类结果。
2.根据权利要求1所述的基于贝叶斯混合公共因子分析器的高维数据的聚类方法,其特征在于,步骤(1)中所述的建立贝叶斯混合公共因子分析器(BMCFA)模型的过程中,各变量的条件似然分布、先验分布的步骤如下:
(1-1)设定一个与中每个数据一一对应的指示变量集合,其中与对应的为一个维矢量,在该矢量中只有一个元素为1,其余为0;当的第个元素时(此时其他元素都为0),表明是由第个成分产生的;那么,关于混合权值的条件分布为
(式3)
(1-2)用均值为,协方差矩阵为的高斯分布来定义的分布;那么,所属的集合关于,,的条件分布为
; (式4)
(1-3)根据(式1),高维数据集关于的条件分布为
; (式5)
(1-4)因子载荷矩阵的分布设定为其行向量的分布的乘积,每个行向量服从高斯分布
, (式6)
其中,为一个对角线元素为的对角矩阵,服从Gamma分布
, (式7)
其中为Gamma分布的超参数;
(1-5)设定,的先验分布为Gaussian-Wishart联合分布:
, (式8)
其中为Gaussian-Wishart联合分布中的超参数;
(1-6)设定混合权值的先验分布为Dirichlet分布:
, (式9)
其中为上述Dirichlet分布的超参数。
3.根据权利要求1所述的基于贝叶斯混合公共因子分析器的高维数据的聚类方法,其特征在于,步骤(2)中所述的对贝叶斯混合公共因子分析器(BMCFA)模型进行推理过程的步骤如下:
(2-1)设定的值,该值根据待聚类的高维数据集的类别数来确定;如果类别数C在聚类开始之前就已知,则,如果类别数未知,则设定为之间的任意正整数;
(2-2)随机产生个服从区间上均匀分布的整数,统计该区间上各整数出现的概率;即,如果产生了个整数,,那么;对于每个,对应的隐变量的初始分布和其期望分别为
(式10)
(2-3)设定超参数,,的值和矩阵的值;对于所有的(),,,,,;,,其中为小于0.1的任意正数;为单位矩阵;在首次迭代更新中,,,;此外,产生的初始值,即,该矩阵中的每一个元素()服从标准正态分布,那么与有关的统计量的初始值为:,,;
设定推理过程中迭代次数的计数变量,开始迭代;
(2-4)更新的后验分布,即
, (式11)
其中,超参数的更新公式为
(式12)
(式13)
在(式13)中,为中的第维分量,为对角矩阵的逆矩阵中的第行第列元素;那么,关于的统计量随之更新为:
(式14)
(2-5)更新的后验分布,即
(式15)
其中,超参数的更新公式为:
, , (式16)
(式16)中的为矢量中的第个元素;那么关于的统计量随之更新为
(式17)
(2-6)更新的后验分布,即
(式18)
其中,超参数的更新公式为
(式19)
(式20)
那么,关于的统计量随之更新为:
(式21)
(2-7)更新的后验分布,即
(式22)
其中,超参数的更新公式为
, (式23)
那么,关于的统计量随之更新为:
; (式24)
(式24)中的为标准的digamma函数;
(2-8)更新的后验分布,即
(式25)
其中,超参数的更新公式为:
, (式26)
, (式27)
, (式28)
; (式29)
那么,关于,的统计量随之更新为:
, (式30)
(式31)
(2-9)更新的后验分布,即
, (式32)
其中,
(式33)
(式34)
(式31)和(式34)中的都表示矩阵的迹(trace);那么,关于的统计量随之更新为:
(式35)
(2-10)更新对角矩阵,其对角线上的第个元素为
; (式36)
(2-11)计算当前迭代后的似然值,为当前的迭代次数;
(式37)
(2-12)计算当前迭代后与上一次迭代后的似然值的差值;如果,那么BMCFA模型的推理过程结束,否则转到步骤(2-4),的值增加1,继续进行下一次的迭代;阈值的取值范围为~;需要注意的是,第一次迭代结束时,只需计算,并将的值增加1,无需进行的判断,直接进入下一次迭代。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310133415.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种热分布图像在线预测方法
- 下一篇:全自动密闭制粒线系统