[发明专利]有标签高维数据的最优投影集合方法及情感文本分类方法有效
申请号: | 202010208815.4 | 申请日: | 2020-03-23 |
公开(公告)号: | CN111382274B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 王雨思;夏佳志;奎晓燕 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30 |
代理公司: | 长沙永星专利商标事务所(普通合伙) 43001 | 代理人: | 周咏;米中业 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标签 数据 最优 投影 集合 方法 情感 文本 分类 | ||
本发明公开了一种有标签高维数据的最优投影集合方法,包括获取需要投影的有标签高维数据的所有类别对;计算类别对之间的类别对可分离向量空间;对可分离高维空间范围求交集得到可分离向量空间的交空间;选取可分离向量空间的交空间中的轴组成二维投影集合并得到最终的最优投影集合。本发明还公开了包括所述有标签高维数据的最优投影集合方法的情感文本分类方法。本发明通过类别对可分离向量空间的交集选取交空间中的轴组成二维投影集合,来组成最终的有标签高维数据的最优投影集合,因此本发明方法能够有效帮助呈现有标签高维数据中的类别信息,而且可靠性高,实用性好。
技术领域
本发明属于数据处理领域,具体涉及一种有标签高维数据的最优投影集合方法及其情感文本分类方法。
背景技术
随着数字化社会的发展,高维数据已经成为人们生产和生活中不可缺少的部分。有标签的高维数据是高维数据的重要组成部分,涉及现代社会多个应用领域,例如信息检索、图像识别、计算生物学和文本挖掘等。发掘和呈现类别信息是分析有标签高维数据的基本任务之一,然而该类数据的维度太高,难以从维度集合中直接获取有意义的分类信息。所以,通常人们需要先对有标签的高维数据进行降维,然后使用散点图可视化降维后的数据,帮助探索数据的类别结构。
降维的基本原理是把数据样本从高维空间投影到一个低维空间,在减少数据维度的同时保持高维空间中的数据特征。根据是否需要数据标签信息,降维方法可以分为监督降维方法和无监督降维方法。对于有标签高维数据,由于无监督降维不考虑类标签,无法很好地捕捉数据的类别结构,因此通常使用监督降维方法对其进行降维。
监督降维方法是高维数据处理中一个重要的研究方向,过去已经提出了许多不同的监督降维方法。线性判别分析(LDA)方法在低维空间中最大化类间的分离程度,其固有缺陷是事先假设数据符合高斯分布,核判别分析(KDA) 方法可以克服LDA的固有缺陷,但没有考虑到人的感知能力。最近提出的感知驱动降维(PDD、PDK)方法考虑了人类感知,然而,由于其降维过程根据每个点计算分离度量,使得该方法的时间复杂度过高。此外,将所有类别投影到同一个视图中,容易造成类别遮挡、视觉混乱等问题,削弱人的感知效果。
因此,现有的降维方法在处理有标签高维数据的可视化存在一定缺陷:无法有效解决呈现高维数据所有类别信息的问题。
发明内容
本发明的目的在于提供一种能够有效帮助呈现有标签高维数据中的类别信息,而且可靠性高、实用性好的有标签高维数据的最优投影集合方法。
本发明的目的之二在于提供一种包括了所述有标签高维数据的最优投影集合方法的情感文本分类方法。
本发明提供的这种有标签高维数据的最优投影集合方法,包括如下步骤:
S1.获取需要投影的有标签高维数据的所有类别对;
S2.针对步骤S1获取的所有类别对,计算类别对之间的类别对可分离向量空间;
S3.根据步骤S2得到的类别对可分离向量空间,对可分离高维空间范围求交集,从而得到可分离向量空间的交空间;
S4.根据步骤S3得到的可分离向量空间的交空间,选取可分离向量空间的交空间中的轴组成二维投影集合,从而得到最终的最优投影集合。
步骤S2所述的计算类别对之间的类别对可分离向量空间,具体为采用如下步骤计算类别对可分离向量空间:
A.根据需要投影的有标签高维数据的所有类别对,利用感知驱动的监督降维PDD方法,计算降维至一维的最优投影向量wi,从而得到所有类别对的最优投影向量集合W={w1,w2,...,wi,...,wm};
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010208815.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置