[发明专利]基于贝叶斯混合公共因子分析器的高维数据的聚类方法有效

专利信息
申请号: 201310133415.1 申请日: 2013-04-17
公开(公告)号: CN103226595A 公开(公告)日: 2013-07-31
发明(设计)人: 魏昕;李宗辰 申请(专利权)人: 南京邮电大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京知识律师事务所 32207 代理人: 汪旭东
地址: 210003 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 贝叶斯 混合 公共 因子 分析器 数据 方法
【权利要求书】:

1.基于贝叶斯混合公共因子分析器的高维数据的聚类方法,其特征在于,包括以下步骤:

(1)设待聚类的高维数据集合                                                ,其中为高维数据的个数,每个数据的维数为;建立贝叶斯混合公共因子分析器(BMCFA)模型,用该模型来表示的分布;即,BMCFA为一个成分数为的混合模型;对于每一高维数据,其可以表示为

     以概率(),   (式1)

其中,为与高维数据相对应并且与成分相关的低维空间中的因子,它的维数为(), 的值根据具体问题中的大小进行选取:遍历之间的所有整数,每个候选的做一次聚类,取性能最好的那次对应的作为最终的值;为的因子载荷矩阵;误差变量服从高斯分布,其中为的对角矩阵;概率满足;

(2)根据待处理的高维数据,基于贝叶斯准则,对步骤(1)中建立好的贝叶斯混合公共因子分析器(BMCFA)模型进行推理;在完成这一推理过程后,对于每一个高维数据,可以得到与其相对应的指示变量的后验期望值,,其中表示当前高维数据是由混合模型中的第个成分产生的概率;

(3)判决:将中的最大值所对应的序号作为所最终分配到的类,即

 ;      (式2)

用这样的方式得到高维数据集中所有数据的聚类结果。

2.根据权利要求1所述的基于贝叶斯混合公共因子分析器的高维数据的聚类方法,其特征在于,步骤(1)中所述的建立贝叶斯混合公共因子分析器(BMCFA)模型的过程中,各变量的条件似然分布、先验分布的步骤如下:

(1-1)设定一个与中每个数据一一对应的指示变量集合,其中与对应的为一个维矢量,在该矢量中只有一个元素为1,其余为0;当的第个元素时(此时其他元素都为0),表明是由第个成分产生的;那么,关于混合权值的条件分布为

           (式3)

(1-2)用均值为,协方差矩阵为的高斯分布来定义的分布;那么,所属的集合关于,,的条件分布为

;         (式4)

(1-3)根据(式1),高维数据集关于的条件分布为

;      (式5)

(1-4)因子载荷矩阵的分布设定为其行向量的分布的乘积,每个行向量服从高斯分布

,     (式6)

其中,为一个对角线元素为的对角矩阵,服从Gamma分布

,       (式7)

其中为Gamma分布的超参数;

(1-5)设定,的先验分布为Gaussian-Wishart联合分布:

,       (式8)

其中为Gaussian-Wishart联合分布中的超参数;

(1-6)设定混合权值的先验分布为Dirichlet分布:

,         (式9)

其中为上述Dirichlet分布的超参数。

3.根据权利要求1所述的基于贝叶斯混合公共因子分析器的高维数据的聚类方法,其特征在于,步骤(2)中所述的对贝叶斯混合公共因子分析器(BMCFA)模型进行推理过程的步骤如下:

(2-1)设定的值,该值根据待聚类的高维数据集的类别数来确定;如果类别数C在聚类开始之前就已知,则,如果类别数未知,则设定为之间的任意正整数;

(2-2)随机产生个服从区间上均匀分布的整数,统计该区间上各整数出现的概率;即,如果产生了个整数,,那么;对于每个,对应的隐变量的初始分布和其期望分别为

          (式10)

(2-3)设定超参数,,的值和矩阵的值;对于所有的(),,,,,;,,其中为小于0.1的任意正数;为单位矩阵;在首次迭代更新中,,,;此外,产生的初始值,即,该矩阵中的每一个元素()服从标准正态分布,那么与有关的统计量的初始值为:,,;

设定推理过程中迭代次数的计数变量,开始迭代;

(2-4)更新的后验分布,即

,         (式11)

其中,超参数的更新公式为

            (式12)

      (式13)

在(式13)中,为中的第维分量,为对角矩阵的逆矩阵中的第行第列元素;那么,关于的统计量随之更新为:

        (式14)

(2-5)更新的后验分布,即

                         (式15)

其中,超参数的更新公式为:

,  ,                      (式16)

(式16)中的为矢量中的第个元素;那么关于的统计量随之更新为

         (式17)

(2-6)更新的后验分布,即

              (式18)

其中,超参数的更新公式为

         (式19)

                (式20)

那么,关于的统计量随之更新为:

             (式21)

(2-7)更新的后验分布,即

                           (式22)

其中,超参数的更新公式为

,                        (式23)

那么,关于的统计量随之更新为:

;             (式24)

(式24)中的为标准的digamma函数;

(2-8)更新的后验分布,即

       (式25)

其中,超参数的更新公式为:

,                     (式26)

,        (式27)

,       (式28)

;                       (式29)

那么,关于,的统计量随之更新为:

,   (式30)

(式31)

(2-9)更新的后验分布,即

 ,      (式32)

其中,

   (式33)

      (式34)

(式31)和(式34)中的都表示矩阵的迹(trace);那么,关于的统计量随之更新为:

                     (式35)

(2-10)更新对角矩阵,其对角线上的第个元素为

; (式36)

(2-11)计算当前迭代后的似然值,为当前的迭代次数;

        (式37)

(2-12)计算当前迭代后与上一次迭代后的似然值的差值;如果,那么BMCFA模型的推理过程结束,否则转到步骤(2-4),的值增加1,继续进行下一次的迭代;阈值的取值范围为~;需要注意的是,第一次迭代结束时,只需计算,并将的值增加1,无需进行的判断,直接进入下一次迭代。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310133415.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top