[发明专利]一种基于MapReduce的大规模贝叶斯网并行推理方法有效

专利信息
申请号: 201310709499.9 申请日: 2013-12-21
公开(公告)号: CN103744878B 公开(公告)日: 2017-02-01
发明(设计)人: 岳昆;徐娟;方启宇;张骥先;田凯琳;刘惟一 申请(专利权)人: 云南大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 昆明慧翔专利事务所53112 代理人: 程韵波
地址: 650091 云南省*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 mapreduce 大规模 贝叶斯网 并行 推理 方法
【说明书】:

技术领域

本发明公开了一种基于MapReduce的大规模贝叶斯网并行推理方法,涉及基于MapReduce将大规模贝叶斯网存储到分布式数据库HBase、将贝叶斯网的概率推理转换为HBase上的数据查询处理、以及基于MapReduce实现贝叶斯网概率推理的方法。属于人工智能及信息处理领域。 

背景技术

随着数据采集手段和数据格式的日益多样、数据规模的急剧增长,对数据中所蕴含知识的表达、理解和应用,越来越受到人们的关注。贝叶斯网(Bayesian Network)以图模型来表达同时包含了概率分布和因果联系的不确定性知识,以定性和定量的方式表示随机变量之间的相互依赖关系,成为当前不确定性知识表示和推理的基本框架。贝叶斯网被广泛用于数据分析、医疗诊断、工业控制、经济预测等领域,例如,基于贝叶斯网描述社交网中用户之间的相互影响,描述基因片段之间的相互作用,等等。 

由于贝叶斯网的构建和推理具有指数时间复杂度,传统的贝叶斯网中节点上限一般为几十个。但是,随着各类数据的增长和新型应用的出现,用来反映其中所蕴含不确定性知识的贝叶斯网的规模也日益增大,这些大规模贝叶斯网的特点是节点数量多、各节点条件概率参数多。近年来,大规模贝叶斯网的构建及其在实际中的应用越来越受到关注,例如,陆洋(<上海交通大学硕士论文>,2013)针对基因数据分析提出了分块学习与合并的大规模贝叶斯网构建方法。针对大规模贝叶斯网的概率推理问题,为了尽可能提高推理效率,公知的方法将贝叶斯网中的特定结构用于加速概率推理、提出了并行的精确推理或近似推理等技术。胡春玲等(<模式识别与人工智能>,2011,24(6):846-855)改进了基于邻接树的精确推理算法,向光军等(<云南大学学报>,2010,32(4):392-395)对变量消元的精确推理算法进行并行化,杨峰(<合肥工业大学硕士论文>,2008)基于抽样技术进行近似推理,孙咏梅等(<专利2011110319410>,2012)引入本体和用户反馈来提高推理速度。这些方法从一定程度上提高了贝叶斯网推理的效率,但是对于持续增长的贝叶斯网规模和复杂的实际应用,仍然无法提供一种具有可扩展性、对贝叶斯网规模不敏感的普适性推理方法。 

描述不确定性知识的大规模贝叶斯网,本身就是一个规模较大的数据源,而MapReduce是有效处理海量、分布式数据的编程模型。针对海量数据及相关的知识发现问题,公知的方法以MapReduce作为并行算法设计与实现的基础,克服了传统集中式算法无法并行处理海量数据的不足,使许多计算复杂度极高的算法仍能较好地适应许多海量数据挖掘与分析的需求。周家帅等(<专利201210157463.X>,2012)提出了基于MapReduce的大图上距离连接查询方法,李莉仙等(<计算机系统应用>,2013,22(2):108-111)提出了MapReduce框架下的朴素贝叶斯算法并行化方法,王源(<云南大学硕士论文>,2013)提出了基于MapReduce的贝叶斯网学习方法。但是,这些基于MapReduce的方法并未涉及大规模贝叶斯网的推理。 

本发明针对大规模贝叶斯网的高效推理问题,利用运行在Hadoop分布式文件系统HDFS之上的分布式数据库HBase,将大规模贝叶斯网视为大规模数据,提出了将大规模贝叶斯网存储到HBase的方法,建立了贝叶斯网推理任务与分布式数据库查询处理之间的关系,基于MapReduce给出了通过分布式数据库的查询处理来实现贝叶斯网并行推理的方法。为大规模贝叶斯网的高效推理提供了一种伸缩性好、使用开源工具的新方法,为不确定性知识表示及相关分析、预测和决策等应用提供了一种新的技术基础。 

发明内容

、本发明的目的在于

提供一种基于MapReduce的大规模贝叶斯网并行推理方法。针对大规模贝叶斯网中节点数量多或各节点条件概率参数多而带来的推理效率低、计算量大等缺点,以克服效率瓶颈为主要目标,利用分布式数据库HBase来存储大规模贝叶斯网,建立HBase查询处理与贝叶斯网推理任务之间的关系,并基于MapReduce实现贝叶斯网的并行推理。给出的方法更符合数据分析、医疗诊断、工业控制、经济预测等领域中实际问题的特点,具有更好的吻合度,可消除贝叶斯网节点数量的限制,对其中不确定性知识的表示、推理及应用等提供支撑技术。

、本发明按以下步骤完成

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310709499.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top