[发明专利]一种加权多视角无监督属性选择方法在审

申请号：	201910636201.3	申请日：	2019-07-15
公开（公告）号：	CN110334777A	公开（公告）日：	2019-10-15
发明（设计）人：	朱晓峰;杜婷婷;张乐园;郑威;李佳烨;张师超	申请（专利权）人：	广西师范大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	桂林市华杰专利商标事务所有限责任公司 45112	代理人：	覃永峰
地址：	541004 广西壮***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	聚类模型属性选择多视角无监督降维加权输入数据集数据预处理聚类结果目标函数权重矩阵最大数据解释性求解构建聚类排序输出改进
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种加权多视角无监督属性选择方法，具体步骤如下：（一）输入数据集；（二）使用Z‑score方法对数据预处理；（三）求解出属性的权重矩阵并排序，构建目标函数；（四）选取最大数据所对应属性实现降维；（五）用降维后的数据集训练出聚类模型，训练出聚类模型；（六）对训练出的聚类模型进行聚类；（七）输出聚类结果。本发明的可解释性以及准确性都较现有技术都有了较大的改进。

技术领域

本发明涉及数据库知识发现技术领域，尤其涉及一种加权多视角无监督属性选择方法。

背景技术

近年来，随着数据库技术的飞速发展以及人们获取数据手段的多样化，人类所拥有的数据急剧增加。这些数据可以广泛使用，并且迫切的需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛应用于各种应用，包括商务管理，生产控制，市场分析，工程设计和科学探索等。可是目前用于对这些数据进行分析处理的工具很少。

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含其中的、事先不知道的、但又潜在的有用信息和知识的过程。根据提取信息的方式，大致可以将数据挖掘分为以下几种模式：分类模式、聚类模式、回归模式、关联模式、序列模式、偏差模式等。

在数据挖掘的各种模式中，分类是一种主要的分析手段，旨在生成一个分类函数或者分类模型，由该模型把数据库中的数据项映射到某一给定的类别中。数据分类一般分为两个过程。第一步是建立分类模型，描述预定的数据类集或者概念集。通过分析有属性描述的数据库元组来构造模型。通常这样的分类模型用分类规则集、决策树或者数学公式的形式给出。第二步是使用分类对新的数据集进行划分，主要涉及分类规则的准确性、过分适合、矛盾划分的取舍等。一个好的分类规则集合应该是对新的数据集而言具有很高准确性、尽可能少的矛盾划分以及较小的规则集。为了提高分类的准确性、有效性和可伸缩性，在分类之前，通常要对数据进行预处理，比如数据清理、相关性分析、数据变换等。

目前，很多领域的数据集朝着大规模发展，它们可能有着成千上万的属性，当样本的属性维数超过某个特定点时，分类器出现错误的概率就会很大。通常情况下，高维数据包含了大量不相关的、冗余的属性。这些不相关的和冗余的属性会模糊数据背后重要的内部结构，大量不相关和冗余属性的存在不但增加了不必要的工作量，而且会降低学习算法的性能。因此，尽可能的从数据中将不相关的和冗余的属性剔除，避免这种维度灾难现象，从而使得传统学习算法仍然能在高维数据上学习训练，是很有必要的。属性选择是一个非常具有挑战性的问题，如何选出最优的属性子集，如何在非线性空间中进行属性选择，如何在保持原始数据结构的前提下去除不相关属性和冗余属性，这都是需要解决的基本问题。

发明内容

针对现有技术的不足，本发明所解决的技术问题是如何解决多视角大数据中维度过高和包含噪音问题。

为解决上述技术问题，本发明采用的技术方案是一种加权多视角无监督属性选择方法，具体步骤如下：

(一)输入数据集，将需要处理的数据Data按照样本×属性的维度做成矩阵D；

(二)使用Z-score方法对数据预处理，把生成的矩阵D对于每一个属性d_i使用Z-score方法即进行处理，其中μ_i为d_i的平均值，δ_i为d_i的标准差,从而得到标准化之后的矩阵X；

(三)求解出属性的权重矩阵并排序，将得到的矩阵X构建目标函数，具体分步骤如下：

(1)传统的图学习的无监督属性选择算法的目标函数可以表示为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广西师范大学，未经广西师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910636201.3/2.html，转载请声明来源钻瓜专利网。