[发明专利]一种基于MPI并行将连续属性进行离散化的方法在审
申请号: | 201711164678.3 | 申请日: | 2017-11-21 |
公开(公告)号: | CN107958266A | 公开(公告)日: | 2018-04-24 |
发明(设计)人: | 胡峰;胡宗容;刘柯;张清华;高延雨;邓维斌;于洪;邓欣;张其龙;欧阳卫华 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F9/54 |
代理公司: | 重庆市恒信知识产权代理有限公司50102 | 代理人: | 刘小红 |
地址: | 400065 重*** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 mpi 行将 连续 属性 进行 离散 方法 | ||
技术领域
本发明属于一种数据挖掘,粗糙集,并行计算领域,基于MPI利用聚类并 行将连续属性离散化的方法。
背景技术
随着近年来数据爆炸式增长,并行技术显得越来越重要,并行计算的主要 目的是节省大型复杂问题或海量数据的处理时间,整合“廉价”的计算机资源 组建并行计算平台克服单机计算性能瓶颈和单机存储空间的限制。
并行计算是指在并行计算机或并行计算平台上将一个大型计算任务拆分为 多个子任务,分配到各处理器,各处理器之间相互协同完成子任务,从而达到 提高求解效率或完成大规模任务的目的。待处理问题具有并行性是运用并行计 算优化解决方案的关键。并行计算分为时间并行和空间并行,时间并行实际上 指的是流水线技术,空间并行则为多个处理器同时参与计算,是并行计算的主 要研究问题。并行计算又可以分为数据并行和任务并行,让多个处理器参与计 算,提高效率和性能。
消息传递接口(Message Passing Interface,简称MPI)自20世纪90年 代以来一直是高性能计算领域并行程序开发的事实标准,目前大部分高性能计 算平台均提供MPI并行环境。MPI是目前最重要的并行编程工具,它具有移植性 好,功能强大,效率高等多种优点,而且有多种不同的免费高效实用的实现版 本,几乎所有的并行计算机厂商都提供对它的支持,这是其它所有的并行编程 环境都无法比拟的。
MPI于1994年产生,虽然产生时间相对较晚,由于它吸收了其它多种并行 环境的优点,同时兼顾性能功能移植性等特点,在短短的几年内便迅速普及成 为消息传递并行编程模式的标准。这也从一个方面说明了MPI的生命力和优越 性,MPI其实就是一个库,共有上百个函数调用接口,在C语言中可以直接对这 些函数进行调用,MPI提供的调用虽然很多,但最常使用的只有6个,只需通过 使用这6个函数就可以完成几乎所有的通信功能。
MPI的特性:(1)容易使用,可移植性好。几乎所有的并行计算机都支持 MPI框架,任何支持进程间通信的并行计算机都支持MPI的程序设计。(2)有完 善的异步通信机制。每个并行进程有自己独立的内存空间,能够保证在不和其 他并行的进程发生冲突下进行进程间通信,解决数据同步的问题,实现了真正 的异步通信。(3)显式的数据交换。用户必须通过显式的发送和接收消息来实 现并行进程间的消息和数据交换。(4)并行粒度大。消息传递模型的程序设计 需要很好地分解任务,适应计算密集型应用,为减少通信消耗,适用于并行计 算粒度大的大规模可扩展并行算法。
现实生活中信息系统的属性不仅多样化,维度高,而且包含噪音,冗余和 不相关属性,为了解决数据计算的复杂性和准确性问题,消除噪音等对计算过 程和最终结果造成的影响,减少规则抽取算法的计算时间,从而看清反应数据 本质特征的分布情况,属性约简必不可少。但粗糙集只能处理离散数据,故连 续属性离散化显得尤为重要。近年来,粗糙集理论成为处理不确定信息的有效 的数学工具。
粗糙集:该理论由波兰学者Pawlak教授于1982年提出,是一种能有效处 理不精确、不确定和模糊信息的数学理论。目前,粗糙集已成功应用到机器学 习、数据挖掘、智能数据分析和控制算法获取等领域。粗糙集理论的主要思想 是利用已知的知识库,将不精确或不确定的知识用已知知识库中的知识来(近似) 刻画。粗糙集可以不依赖先验知识,根据数据的决策与分布进行知识发现。
连续属性离散化:离散化是处理连续属性最常用的方法,连续属性的离散 化方法也可以被称为分箱法,这种方法将一组连续的值根据一定的规则分别放 到其术语的集合中,即将连续属性的邻近值分组,形成有限个区间。离散化技 术有很多方法可以实现,如等区间宽度、等频率、等熵、或聚类等,可以根据 如何对数据进行离散化加以分类,可以根据是否使用类信息或根据进行方向(即 自顶向下或自底向上)分类。如果离散化过程使用决策信息,则称它为监督离散 化,否则是非监督的。如果首先找出一点或几个点(称作分裂点或割点)来划分 整个属性区间,然后在结果区间上递归地重复这一过程,则称它为自顶向下离 散化或分裂。自底向上离散化或合并正好相反,首先将所有的连续值看作可能 的分裂点,通过合并相邻域的值形成区间,然后递归地应用这一过程于结果区 间。
在进行数据处理时,先对数据进行离散化有很多好处:算法需要,例如粗 糙集本身只能处理离散数据,因此利用粗糙集处理连续数据时,首先要将其离 散化;离散化可以有效地克服数据中隐藏的缺陷,使模型结果更加稳定;有利 于对非线性关系进行诊断和描述,对连续型数据进行离散处理后,自变量和目 标变量之间的关系变得清晰化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711164678.3/2.html,转载请声明来源钻瓜专利网。