[发明专利]基于Hellinger距离-高斯混合模型的聚类方法在审

申请号：	202010190288.9	申请日：	2020-03-18
公开（公告）号：	CN111428768A	公开（公告）日：	2020-07-17
发明（设计）人：	郭伟;何茂	申请（专利权）人：	电子科技大学;电子科技大学广东电子信息工程研究院
主分类号：	G06K9/62	分类号：	G06K9/62;G06Q10/06
代理公司：	成都虹盛汇泉专利代理有限公司 51268	代理人：	王伟
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 hellinger 距离混合模型方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于Hellinger距离-高斯混合模型的数据聚类方法，其特征在于，包括以下步骤：

S1、参数设定与初始化：设置高斯混合模型参数初始值，以及相关参数的初始值和设定值，所述高斯混合模型参数初始值，包括：混合模型中高斯分布个数K，每个高斯分布的参数初始值，即均值和协方差以及该高斯分布对应的混合系数且满足则高斯混合模型参数初始值为设置其他参数初始值和设定值，即正则化系数λ、更新系数γ初值、近邻个数l和迭代终止值δ，迭代序号t初始化为1，即t＝1；

S2、模型优化目标函数构建：定义高斯混合模型参数优化的目标函数，并引入正则化项来更新高斯混合模型参数，其中运用Hellinger距离计算两个高斯分布之间的接近程度；

S3、样本后验概率计算：根据前一次迭代获得的高斯混合模型参数计算样本后验概率；

S4、高斯混合模型参数更新：采用广义期望最大算法更新后验概率和高斯混合模型参数；

S5、计算正则化似然函数值；

S6、迭代终止判断：对比高斯混合模型参数更新前后的正则化似然函数值，并持续步骤S3-S5的迭代过程，直至满足迭代终止条件；

S7、数据类别判定：对每个样本，取最大后验概率对应的高斯分量标签即为该样本的聚类结果。

2.如权利要求1所述的基于Hellinger距离-高斯混合模型的聚类方法，其特征在于，所述步骤S2的实现过程为：

待优化的高斯混合模型是由K个高斯分布组成的，

其中，Θ＝(π₁,μ₁,Σ₁,…,π_K,μ_K,Σ_K)是高斯混合模型的参数，μ_k和Σ_k是第k个高斯分布的均值和协方差，N_k(x_i|μ_k,Σ_k)为相应的高斯分布密度，π_k是其对应的混合系数，且满足x_i表示样本集X中的一个样本，i＝1,…,n，每个样本x_i包含d维特征；

为了实现数据聚类，通过迭代运算更新高斯混合模型参数Θ，因此，定义X为观测样本集，Z＝{z_i,i＝1,…,n}为未观测样本集，X和Z构成完整样本集，在最大化完整样本集对数似然函数的基础上，引入正则化项构成优化目标函数，其定义如下：

其中，λ为正则化系数，为正则化项，此处将Hellinger距离引入正则化项中，那么概率分布P_i和P_j之间的Hellinger距离的h(P_i,P_j)的平方为：

且满足h(P_i,P_j)≤1，正则项表示为

其中，P(k|x_i)和P(k|x_j)分别为样本x_i和x_j由第k个高斯分量生成的后验概率；拉普拉斯矩阵L可表示为L＝D-W，其中矩阵D和W的关系为T表示转置；

对于样本x_i，根据Hellinger距离可以确定其l个最近邻点，l∈{n-1}，在最近邻图中样本x_i与其近邻样本x_j间的权重w_ij定义为：

其中，和分别表示样本x_i和x_j的l个近邻样本集。

3.如权利要求1所述的基于Hellinger距离-高斯混合模型的聚类方法，其特征在于，所述步骤S3的实现过程为：

根据第t-1次迭代获得的高斯混合模型参数Θ^t-1计算后验概率为：

在此基础上，采用广义期望极大算法定义Q函数用于模型参数的迭代运算，其表示为：

迭代优化目标为分别最大化Q(Θ,Θ^t-1)和最小化正则项

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学;电子科技大学广东电子信息工程研究院，未经电子科技大学;电子科技大学广东电子信息工程研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010190288.9/1.html，转载请声明来源钻瓜专利网。

上一篇：一种民航客机机身表面三维数据采集管理系统及方法
下一篇：一种硫化鞋用水性处理剂及其制备方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于Hellinger距离-高斯混合模型的聚类方法在审

专利文献下载