[发明专利]一种基于微调条件概率的分类数据转换方法有效
申请号: | 201910770010.6 | 申请日: | 2019-08-20 |
公开(公告)号: | CN110502552B | 公开(公告)日: | 2022-10-28 |
发明(设计)人: | 熊庆宇;李秋德;吉胜芬;高旻;余洋;王凯歌;吉皇 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/215;G06N20/00 |
代理公司: | 重庆西南华渝专利代理有限公司 50270 | 代理人: | 郭桂林 |
地址: | 400044 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 微调 条件 概率 分类 数据 转换 方法 | ||
本发明涉及数据预处理的数据挖掘或机器学习领域,本发明提出的一种基于微调条件概率的分类数据转换方法,包括:S1、分类数据的数据采集;S2、数据预处理,清洗分类数据中的缺失数据,噪音数据,以及无效数据;S3、条件概率计算,将清洗以后的分类数据转换为数值向量;S4、微调条件概率,对步骤S3中转换后的数值向量进行数值微调;S5、分类数据的数值嵌入,对步骤S4中进行数值微调以后的数值向量,采用原始的分类数据嵌入或映射为数值数据。本发明可将分类数据集中的分类值转换为高质量的数值向量,转换后的数值数据能保持原始数据的真实分布,保证了数据挖掘任务的可靠性。
技术领域
本发明涉及数据预处理的数据挖掘或机器学习领域,具体涉及一种基于微调条件概率的分类数据转换方法。
背景技术
在一个数据挖掘或机器学习任务中,采集的数据通常会包含数值型和分类型两类数据。然而大部分机器学习算法(如神经网络、支持向量机、逻辑回归等)只能直接处理数值数据,仅有少数地如决策树、贝叶斯等算法可直接处理分类数据;此外,直接处理数值数据的算法通常比直接处理分类数据的算法具有更高效的性能。为了能广泛地使用数值输入的机器学习算法,分类数据需要转换为数值数据。目前,国内外已经提出了多种分类数据转换方法,然而,这些方法多数存在的一个缺陷是将分类数据转换为低质量的数值数据,从而偏离了原始数据的真实分布,以至于降低了下一阶段机器学习算法的性能和可靠性。因此,研究一种高效合理的分类数据转换方法极为重要。
在分类数据转换为数值数据的众多方法之中,最常用的方法是独热编码(One-hotEncoding),它将分类属性内的每个分类值转换为一个高维的0-1向量;当分类属性的分类值基数很大时,这个方法极易出现维度灾难问题,从而增加数据存储的开销和后序机器学习算法的时间开销。为此,专利CN109740680A公开了一种混合值属性审批数据的分类方法及系统,通过独热编码转换为高维的数值数据后,再用神经网络进行深度编码以降低属性维度,但是需要花费大量的时间去寻找一个好的神经网络结构;专利US20190164083A1公开了一种自然语言处理领域下用于机器学习的分类数据转换和聚类方法,该方法首先也是使用独热编码转换,随后使用聚类算法去降低属性维度。除了独热编码及其改进方法外,专利CN109255373A公开了一种分类数据数字化的数据处理方法,但该方法仅应用于土地利用和土壤类型等环境领域问题,不具普适性。授权专利US9619757B2公开了一种使用结果可能性的标称属性转换方法,它将每个分类值转换为该分类值在数据集中出现的可能性(或概率),这种方法没有考虑类标签信息,因此可能会损失部分信息。
Kasif等人考虑了类标签信息后提出了一种基于记忆推理的转换方法,将分类属性内的每个分类值转换为一个条件概率向量。然而他们并没有将转换的条件概率向量应用于数值输入的机器学习算法,而只是用于计算分类值之间的距离。Hernández-Pereira等人将上述转换方法的条件概率应用于数值输入的神经网络算法,并在入侵检测问题中取得了很好的实验效果。基于记忆推理的转换方法因考虑了类标签信息而获得了较高质量的数值数据,然而,我们通过深入分析这种转换方法后发现:它依赖属性独立假设,假设数据集内的属性之间是相互独立的。当属性之间存在某种依赖关系时便违反了这个假设(注:属性之间通常是相互依赖的),从而转换后的条件概率也不太可靠,稍许的偏离了原始数据的真实分布。
发明内容
本发明的目的是提供一种基于微调条件概率的分类数据转换方法,可将分类数据集中的分类值转换为高质量的数值向量,使得转换后的数值数据依然能保持原始数据的真实分布,从而提高了下一阶段机器学习算法的分类性能,并保证了数据挖掘任务的可靠性。
本发明提出的一种基于微调条件概率的分类数据转换方法,包括:
S1、分类数据的数据采集;
S2、数据预处理,清洗分类数据中的缺失数据,噪音数据,以及无效数据;
S3、条件概率计算,将清洗以后的分类数据转换为数值向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910770010.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据读写方法、系统及架构组件
- 下一篇:一种基于大数据的辅助决策方法