[发明专利]基于Hellinger距离-高斯混合模型的聚类方法在审
申请号: | 202010190288.9 | 申请日: | 2020-03-18 |
公开(公告)号: | CN111428768A | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 郭伟;何茂 | 申请(专利权)人: | 电子科技大学;电子科技大学广东电子信息工程研究院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q10/06 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 王伟 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 hellinger 距离 混合 模型 方法 | ||
1.基于Hellinger距离-高斯混合模型的数据聚类方法,其特征在于,包括以下步骤:
S1、参数设定与初始化:设置高斯混合模型参数初始值,以及相关参数的初始值和设定值,所述高斯混合模型参数初始值,包括:混合模型中高斯分布个数K,每个高斯分布的参数初始值,即均值和协方差以及该高斯分布对应的混合系数且满足则高斯混合模型参数初始值为设置其他参数初始值和设定值,即正则化系数λ、更新系数γ初值、近邻个数l和迭代终止值δ,迭代序号t初始化为1,即t=1;
S2、模型优化目标函数构建:定义高斯混合模型参数优化的目标函数,并引入正则化项来更新高斯混合模型参数,其中运用Hellinger距离计算两个高斯分布之间的接近程度;
S3、样本后验概率计算:根据前一次迭代获得的高斯混合模型参数计算样本后验概率;
S4、高斯混合模型参数更新:采用广义期望最大算法更新后验概率和高斯混合模型参数;
S5、计算正则化似然函数值;
S6、迭代终止判断:对比高斯混合模型参数更新前后的正则化似然函数值,并持续步骤S3-S5的迭代过程,直至满足迭代终止条件;
S7、数据类别判定:对每个样本,取最大后验概率对应的高斯分量标签即为该样本的聚类结果。
2.如权利要求1所述的基于Hellinger距离-高斯混合模型的聚类方法,其特征在于,所述步骤S2的实现过程为:
待优化的高斯混合模型是由K个高斯分布组成的,
其中,Θ=(π1,μ1,Σ1,…,πK,μK,ΣK)是高斯混合模型的参数,μk和Σk是第k个高斯分布的均值和协方差,Nk(xi|μk,Σk)为相应的高斯分布密度,πk是其对应的混合系数,且满足xi表示样本集X中的一个样本,i=1,…,n,每个样本xi包含d维特征;
为了实现数据聚类,通过迭代运算更新高斯混合模型参数Θ,因此,定义X为观测样本集,Z={zi,i=1,…,n}为未观测样本集,X和Z构成完整样本集,在最大化完整样本集对数似然函数的基础上,引入正则化项构成优化目标函数,其定义如下:
其中,λ为正则化系数,为正则化项,此处将Hellinger距离引入正则化项中,那么概率分布Pi和Pj之间的Hellinger距离的h(Pi,Pj)的平方为:
且满足h(Pi,Pj)≤1,正则项表示为
其中,P(k|xi)和P(k|xj)分别为样本xi和xj由第k个高斯分量生成的后验概率;拉普拉斯矩阵L可表示为L=D-W,其中矩阵D和W的关系为T表示转置;
对于样本xi,根据Hellinger距离可以确定其l个最近邻点,l∈{n-1},在最近邻图中样本xi与其近邻样本xj间的权重wij定义为:
其中,和分别表示样本xi和xj的l个近邻样本集。
3.如权利要求1所述的基于Hellinger距离-高斯混合模型的聚类方法,其特征在于,所述步骤S3的实现过程为:
根据第t-1次迭代获得的高斯混合模型参数Θt-1计算后验概率为:
在此基础上,采用广义期望极大算法定义Q函数用于模型参数的迭代运算,其表示为:
迭代优化目标为分别最大化Q(Θ,Θt-1)和最小化正则项
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学;电子科技大学广东电子信息工程研究院,未经电子科技大学;电子科技大学广东电子信息工程研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010190288.9/1.html,转载请声明来源钻瓜专利网。