[发明专利]一种基于在线分裂合并EM算法的高斯混合模型分类方法无效

申请号：	201010172604.6	申请日：	2010-05-07
公开（公告）号：	CN102081753A	公开（公告）日：	2011-06-01
发明（设计）人：	冉鑫;张永鑫	申请（专利权）人：	上海海事大学
主分类号：	G06N7/02	分类号：	G06N7/02
代理公司：	上海天翔知识产权代理有限公司 31224	代理人：	吕伴
地址：	200135 上***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于在线分裂合并 em 算法混合模型分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域：

本发明涉及一种模式识别分类方法，具体涉及一种基于在线分裂合并EM算法的高斯混合模型分类方法。

背景技术：

高斯混合模型(Gaussian mixture models，GMM)是广泛应用与各个工程技术领域的一种统计学习模型，其核心是模型训练和参数估计的算法。自从高斯混合模型提出以来，已经有大量各种不同的模型训练和参数估计算法被研究和实现，其中大部分算法主要是基于Dempster等人在Journal of Royal StatisticalSociety B期刊中发表的论文“Maximum Likelihood from Incomplete Data Via theEM algorithm”中所提出的期望最大化方法(Expectation-Maximization，EM)。

虽然EM算法解决了统计模型训练算法的完备性和收敛性问题，但传统的EM训练是批量模式的，在E步(E step)和M步(M step)训练中需要多个数据样本。因此一般的EM训练将面临三个实际的问题，即：(1)由稀疏训练样本导致的协方差矩阵奇异性；(2)收敛到局部极大值；(3)对分类初始化敏感。值得注意的是，上述问题在复杂条件和人类自然语音背景下的处理变得更加重要，因为基于GMM对此类数据进行建模是非常有限或不稳定的。另外，由于EM要求训练数据在算法初始化的时候全部输入，这种批处理要求对于很多实际现代工程问题，尤其是大量实时在线工程问题的解决有很大局限性。可以看到，现代计算机图象处理，信号处理和检测以及通信系统鲁棒控制等等都无法满足EM对批处理数据的要求。

基于以上所述EM算法局限性，Ueda等人在Journal of VLSI SignalProcessing Systems for Signal，Image，and Video Technology期刊发表的论文“Split and merge EM algorithm for improving Gaussian mixture density estimates”中提出了一种分裂合并EM算法(SMEM)，较好的克服了算法的局部收敛性问题，但仍然没有涉及在线学习的问题的解决。

发明内容：

本发明的目的是为了解决传统高斯混合模型中期望值EM处理必须具备足够数量的样本才能开始训练的问题，为此本发明提出基于在线分裂合并EM算法的高斯混合模型分类方法，该方法继承了EM算法的完备性和收敛性特征，也继承了分裂合并算法对局部收敛性的改进，并同时在很大程度上克服了批处理数据要求的局限性。

为了达到上述目的，本发明采用如下的技术方案是：

一种基于在线分裂合并EM算法的高斯混合模型分类方法，所述方法包括如下步骤：

(1)在线采集新的样本数据并判断数据是否有效，如果数据有效则模型将数据输入在线分裂合并EM算法；如果数据无效，放弃进一步处理数据，并等待下个数据进入；

(2)如果有效数据需要训练，提取最近一次存储的全局模型；如果最近一次的全局模型有效，在线分裂合并EM算法将基于新的数据更新全局模型；如果最近一次的全局模型无效，将提取历史有效全局模型；

(3)在线分裂合并EM算法进行循环反复式训练；

(4)如果更新后的全局模型已经满足精度要求上限或者超过系统精度震动范围，在线分裂合并EM算法将停止训练；

(5)将更新后的模型存储用于下次训练。

所述步骤(1)开始前还需要规定模型在线分裂合并EM算法训练的初始条件。

所述在线分裂合并EM算法的参数估计式为：

都是Q函数上用来分裂和合并的相应项。