[发明专利]一种加权多视角无监督属性选择方法在审
申请号: | 201910636201.3 | 申请日: | 2019-07-15 |
公开(公告)号: | CN110334777A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 朱晓峰;杜婷婷;张乐园;郑威;李佳烨;张师超 | 申请(专利权)人: | 广西师范大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 覃永峰 |
地址: | 541004 广西壮*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类模型 属性选择 多视角 无监督 降维 加权 输入数据集 数据预处理 聚类结果 目标函数 权重矩阵 最大数据 解释性 求解 构建 聚类 排序 输出 改进 | ||
本发明公开了一种加权多视角无监督属性选择方法,具体步骤如下:(一)输入数据集;(二)使用Z‑score方法对数据预处理;(三)求解出属性的权重矩阵并排序,构建目标函数;(四)选取最大数据所对应属性实现降维;(五)用降维后的数据集训练出聚类模型,训练出聚类模型;(六)对训练出的聚类模型进行聚类;(七)输出聚类结果。本发明的可解释性以及准确性都较现有技术都有了较大的改进。
技术领域
本发明涉及数据库知识发现技术领域,尤其涉及一种加权多视角无监督属性选择方法。
背景技术
近年来,随着数据库技术的飞速发展以及人们获取数据手段的多样化,人类所拥有的数据急剧增加。这些数据可以广泛使用,并且迫切的需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛应用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等。可是目前用于对这些数据进行分析处理的工具很少。
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含其中的、事先不知道的、但又潜在的有用信息和知识的过程。根据提取信息的方式,大致可以将数据挖掘分为以下几种模式:分类模式、聚类模式、回归模式、关联模式、序列模式、偏差模式等。
在数据挖掘的各种模式中,分类是一种主要的分析手段,旨在生成一个分类函数或者分类模型,由该模型把数据库中的数据项映射到某一给定的类别中。数据分类一般分为两个过程。第一步是建立分类模型,描述预定的数据类集或者概念集。通过分析有属性描述的数据库元组来构造模型。通常这样的分类模型用分类规则集、决策树或者数学公式的形式给出。第二步是使用分类对新的数据集进行划分,主要涉及分类规则的准确性、过分适合、矛盾划分的取舍等。一个好的分类规则集合应该是对新的数据集而言具有很高准确性、尽可能少的矛盾划分以及较小的规则集。为了提高分类的准确性、有效性和可伸缩性,在分类之前,通常要对数据进行预处理,比如数据清理、相关性分析、数据变换等。
目前,很多领域的数据集朝着大规模发展,它们可能有着成千上万的属性,当样本的属性维数超过某个特定点时,分类器出现错误的概率就会很大。通常情况下,高维数据包含了大量不相关的、冗余的属性。这些不相关的和冗余的属性会模糊数据背后重要的内部结构,大量不相关和冗余属性的存在不但增加了不必要的工作量,而且会降低学习算法的性能。因此,尽可能的从数据中将不相关的和冗余的属性剔除,避免这种维度灾难现象,从而使得传统学习算法仍然能在高维数据上学习训练,是很有必要的。属性选择是一个非常具有挑战性的问题,如何选出最优的属性子集,如何在非线性空间中进行属性选择,如何在保持原始数据结构的前提下去除不相关属性和冗余属性,这都是需要解决的基本问题。
发明内容
针对现有技术的不足,本发明所解决的技术问题是如何解决多视角大数据中维度过高和包含噪音问题。
为解决上述技术问题,本发明采用的技术方案是一种加权多视角无监督属性选择方法,具体步骤如下:
(一)输入数据集,将需要处理的数据Data按照样本×属性的维度做成矩阵D;
(二)使用Z-score方法对数据预处理,把生成的矩阵D对于每一个属性di使用Z-score方法即进行处理,其中μi为di的平均值,δi为di的标准差,从而得到标准化之后的矩阵X;
(三)求解出属性的权重矩阵并排序,将得到的矩阵X构建目标函数,具体分步骤如下:
(1)传统的图学习的无监督属性选择算法的目标函数可以表示为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910636201.3/2.html,转载请声明来源钻瓜专利网。