[发明专利]一种基于MCMC的并行分类方法有效
申请号: | 201210563427.3 | 申请日: | 2012-12-21 |
公开(公告)号: | CN102999477A | 公开(公告)日: | 2013-03-27 |
发明(设计)人: | 迟学斌;周纯葆;郎显宇;王珏;邓笋根 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | G06F17/18 | 分类号: | G06F17/18 |
代理公司: | 北京亿腾知识产权代理事务所 11309 | 代理人: | 陈霁 |
地址: | 100190 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 mcmc 并行 分类 方法 | ||
技术领域
本发明涉及数据分类技术,尤其涉及一种基于MCMC的并行分类方法。
背景技术
针对数据分类问题,目前存在许多分类方法,单一的分类方法主要包括:决策树、贝叶斯、人工神经网络、K-近邻、支持向量机和基于关联规则的分类等。另外还有用于组合单一分类方法的集成学习方法,如Bagging方法和Boosting方法等。
在诸多分类方法中,贝叶斯分类算法是一类利用概率统计知识进行分类的算法。当面对大数据的分类问题时,基于统计学的贝叶斯算法就显现出了它的优势。贝叶斯算法基本思想是通过贝叶斯规则(参见公式1)进行参数后验证概率推断的过程。
其中,E是可利用的数据,H是需要关注的参数,在分类问题中就是个体属于某一类的概率,P(E)是数据的非条件概率,P(H)是参数的先验概率,P(E|H)是似然估计,P(H|E)是参数的后验概率。
贝叶斯算法中参数的后验概率推断可以利用MCMC(Markov Chain MonteCarlo,马尔科夫链蒙特卡罗)算法,其中我们所关注的参数作为状态空间,搜索状态空间形成的马尔科夫链的平稳概率分布就是参数的后验概率分布。马尔可夫链(Markov Chain),描述了一种状态序列,其每个状态值取决于其前面一个状态。马尔可夫链是具有马尔可夫性质的随机变量x_1,x_2,x_3…的一个数列。这些变量的范围,即它们所有可能取值的集合,被称为“状态空间”,而X_n的值则是在时间n的状态。如果X_{n+1}对于过去状态的条件概率分布仅是X_n的一个函数,则P(X_{n+1}=x|X_1=x_1,X_2=x_2,...,X_n=x_n)=P(X_{n+1}=x|X_n=x_n)。这里X为过程中的某个状态。上面这个恒等式可以被看作是马尔可夫性质。
MCMC算法的主要缺点就是容易陷入局部最优,因此利用MC3(MetropolisCoupled Markov Chain Monte Carlo,多链耦合马尔科夫链蒙特卡罗)算法来解决数据的分类问题,MC3算法可以有效地的避免MCMC算法陷入局部最优的情况。MC3算法利用多条马尔科夫链同时进行MCMC计算,通过交换马尔科夫链的状态信息达到避免MCMC算法陷入局部最优的情况。然而面对巨大的数据量,MCMC算法本身十分耗时,MC3算法就更加的耗时。
发明内容
本发明的目的是提供一种基于MCMC的并行分类方法,用于解决现有技术中MCMC算法在面对巨大的数据量时出现的上述问题。
为实现上述目的,本发明提供了一种基于MCMC的并行分类方法,应用于包括N行处理器和P列处理器构成的运算系统中,每个处理器至少包含一条马尔科夫链和一个特征,同一行中的P个处理器具有相同的马尔科夫链,同一列中的N个处理器具有相同的个体特征,该方法步骤包括:
根据初始状态计算似然估计;
根据似然估计计算出参数的后验概率;
根据所述后验概率进行MCMC模拟运算,以当前状态为基础,产生新状态;
根据所述新状态计算接受概率,并通过第一随机数产生器产生第一随机数,所述同一行中的处理器具有相同的第一随机数产生器;
判断所述接受概率和所述第一随机数的比较结果,当所述第一随机数小于所述接受概率时,则下一时刻的状态为所述新状态,否则保持原状态不变;
通过第二随机数产生器产生同一列处理器中准备进行交换的马尔科夫链的标号,所述每个处理器具有相同的第二随机数产生器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210563427.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种浅色聚酯导电纤维的制造方法
- 下一篇:一种稀土镧系发火合金及其制备方法