[发明专利]一种结合森林优化和粗糙集的数据离散化方法在审
申请号: | 201910126440.4 | 申请日: | 2019-02-20 |
公开(公告)号: | CN109871894A | 公开(公告)日: | 2019-06-11 |
发明(设计)人: | 徐东;王鑫;孟宇龙;张子迎;任龙;关智允;颜丙辉;王敏 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于机器学习数据处理领域,具体涉及一种结合森林优化和粗糙集的数据离散化方法。本发明的目的在于克服传统连续属性离散化算法割裂属性之间关联的缺点,使用森林优化算法对基于粗糙集的离散化方法进行改进,提出一种搜索效率高、避免局部最优的结合森林优化和粗糙集的数据离散化方法,并将该方法应用在机器学习的数据预处理过程,本发明最大程度保留了数据集不同属性间的关联性,增强机器学习模型的记忆能力,克服传统离散化方法易陷入局部最优、割裂属性之间关联以及优化效率低等问题,是一种多维属性离散化方法,并应用其建立数据预处理模型,可在机器学习算法中使用,如C4.5分类器,可提高其分类、预测精度。 | ||
搜索关键词: | 离散化 粗糙集 机器学习 森林 优化 割裂 数据预处理过程 机器学习算法 数据处理领域 关联 数据预处理 多维属性 记忆能力 连续属性 搜索效率 效率低等 优化算法 增强机器 分类器 关联性 数据集 算法 分类 保留 预测 改进 应用 学习 | ||
【主权项】:
1.一种结合森林优化和粗糙集的数据离散化方法,其特征在于,该方法包括以下步骤:步骤1:计算候选断点集;步骤1.1:对数据集进行数据清洗,包括处理数据不平衡问题、缺失值问题;步骤1.2:利用粗糙集理论,对清洗过的数据进行属性化简;步骤1.3:筛选出化简后属性中的连续属性,利用变精度粗糙集理论,对其进行初步的属性值候选断点集划分;步骤2:适宜度函数评价断点;步骤2.1:利用变精度粗糙集得到依赖度和断点数目两个指标,设计适宜度评价函数;步骤2.2:计算当前断点集的β得到依赖度;步骤2.3:计算森林初始候选断点集的适宜度评价函数;步骤3:森林优化迭代;步骤3.1:将候选断点集映射成森林中每棵树,进行森林优化编码;步骤3.2:初始化森林,预设参数;步骤3.3:森林就地传播,进行局部森林寻优步骤3.4:得到依赖度指导,更新森林每棵树的适宜度,对其进行评价,同时更新树的年龄参数;步骤3.5:形成、更新备选森林;步骤3.6:远处播种,进行全局森林寻优;步骤3.7:更新森林中每棵树的适宜度,并更新森林参数;步骤3.8:森林迭代次数G进行加1操作,若G≤Gmax,则执行步骤3.3;若反之,则执行步骤3.9;步骤3.9:计算森林中各树的适宜度,选取最大适宜度的树,即为最优树,将其反映射为最优断点集Eopt,最优断点集,即为本方法对连续属性离散化的最优结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910126440.4/,转载请声明来源钻瓜专利网。