[发明专利]基于KS检验的高斯混合模型分裂与合并算法在审
申请号: | 201710548892.2 | 申请日: | 2017-07-07 |
公开(公告)号: | CN107463528A | 公开(公告)日: | 2017-12-12 |
发明(设计)人: | 陈亚瑞;蒋硕然;杨巨成;赵希;张传雷 | 申请(专利权)人: | 天津科技大学 |
主分类号: | G06F17/10 | 分类号: | G06F17/10 |
代理公司: | 天津盛理知识产权代理有限公司12209 | 代理人: | 王利文 |
地址: | 300222 天津市河*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 ks 检验 混合 模型 分裂 合并 算法 | ||
技术领域
本发明属于机器学习技术领域,是一种基于KS检验的高斯混合模型分裂与合并算法(KSGMM)。
背景技术
高斯混合模型(Gaussian Mixture Model,GMM)是有限个独立高斯模型的线性组合,每个样本点由其中的一个高斯模型产生。GMM广泛应用于模式识别、计算机视觉、机器学习和生物信息等领域,主要完成图像分割、聚类、概率密度函数构建等任务。EM算法(Expectation Maximization Algorithm)是求解GMM参数的一种重要方法,它是对带隐变量模型进行参数估计的常用方法。EM算法以似然函数为目标函数,通过迭代优化参数,每步迭代包含期望步(E步)和极大步(M步),E步利用高斯模型参数计算隐变量的期望,M步根据隐变量的期望对高斯模型参数最大似然估计。但是,EM算法以似然函数为目标函数只考虑了数据拟合度,当子模型个数的初始设置过大时,算法估计的子模型个数大于实际值。
在GMM子模型个数选择的研究方面已有一些算法被提出,其中很重要的一类算法是以最短描述长度(Minimum Description Length,MDL)为目标函数的分裂与合并算法。MDL最早由香农提出,该准则通过平衡数据拟合度与模型复杂度建立可以精确描述对象的数学模型,通过最小化MDL避免选择过适应的模型。但该准则中模型复杂度的形式过于简单,不适用于子模型间样本数量不均衡的GMM。Takeuchi对MDL改进,使其更适应于此类不均衡的GMM,一类采用分裂和合并操作的GMM参数估计算法就以此版本的MDL为目标函数。Yan Li提出以MDL作为目标函数的分裂与合并的EM算法(A Noval Split and Merge EM Algorithm for Gaussian Mixture Model,SMEM),其中以熵比作为子模型分裂与合并的判别准则,分裂与合并操作都要满足熵比增加且MDL减小。SMEM算法迭代执行分裂与合并操作,当无子模型分裂与合并时算法达到收敛,估计出GMM参数。SMEM算法通过分裂与合并操作提高了对子模型个数估计的精度,但熵比对稀疏或凹形子模型过于敏感,实际问题中这两类子模型是不应被分裂的。并且合并判别只能以遍历所有子模型对的方式确定,算法的计算量较大。针对合并搜索时计算量较大问题,Thiago提出以MDL为目标函数的进化分裂与合并EM算法(Evolutionary Split&Merge for Expectation Maximization,ESM-EM),其中以KL散度作为子模型分裂的判别准则,以模型相似度作为子模型对合并的判别准则。待分裂子模型需满足KL散度最大且分裂后MDL减小,待合并子模型对需满足模型相似度最大且合并后MDL减小。算法的分裂与合并迭代过程与SMEM算法相似。合并操作以模型相似度为判别准则不需要遍历所有子模型对,相比于SMEM算法减少了计算量,但模型相似度判别的合并操作会破坏部分子模型的高斯分布形态。SMEM和ESM-EM算法中不适当的分裂或合并操作导致后续迭代需经过多次重复的分裂与合并,出现振荡现象,增大了迭代次数。
发明内容
本发明的目地在于克服现有技术的不足,提出一种基于KS检验的高斯混合模型分裂与合并算法,解决GMM样本中稀疏或凹形子模型的过度分裂以及不能符合高斯分布形态的过度合并问题。
本发明解决其技术问题是采取以下技术方案实现的:
一种基于KS检验的高斯混合模型分裂与合并算法,包括以下步骤:
步骤1、通过将高斯混合模型子模型个数K随机赋值执行EM算法初始化高斯混合模型的参数,计算高斯混合模型的最小描述长度;
步骤2、分裂操作以熵比和KS检验作为子模型分裂的分裂判别准则,对满足分裂条件的子模型进行分裂并更新参数;
步骤3、合并操作以模型相似度和KS检验作为子模型对的合并判别准则,对满足合并条件的子模型对进行合并并更新参数;
步骤4、迭代分裂与合并操作,如果不再有子模型可分裂与合并,输出子模型个数与高斯混合模型参数。
所述步骤2的具体实现方法为:计算GMM所有子模型的熵比,对熵比最小子模型k进行KS检验;如果k不满足KS检验,则将最小子模型k分裂为子模型k1和k2,并执行EM算法更新k1和k2的参数;若分裂后GMM的最小描述长度减小,则完成分裂,子模型个数K=K-1,否则放弃分裂,讲k的熵比置为无穷大,继续寻找待分裂子模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津科技大学,未经天津科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710548892.2/2.html,转载请声明来源钻瓜专利网。