[发明专利]数据处理方法和数据处理装置有效
申请号: | 201310075814.7 | 申请日: | 2013-03-11 |
公开(公告)号: | CN104050162B | 公开(公告)日: | 2017-10-13 |
发明(设计)人: | 黄琦珍;张军;钟朝亮;松尾昭彦 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 朱胜,穆云丽 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
技术领域
本公开涉及一种数据处理方法和数据处理装置,更具体地,涉及一种通过使用加权维度簇算法来提高多维样本数据的可视化质量的数据处理方法和数据处理装置。
背景技术
借助图形化手段对数据进行可视化能够更清晰地传达与沟通信息。在图形中将数据集里不同类别的数据分开显示并且同类别数据相邻显示,有助于用户挑选不同类别的数据。例如,用户可能需要从大量web服务中选择出不同类别的服务进行mashup(糅合),因此将web服务的类簇结构进行可视化能够方便用户直观地挑选出需要的服务类别。
在大数据时代,高维数据比比皆是,如使用不同关键字表示的web服务数据、使用不同实验条件表示的基因数据、使用不同观测指标表示的天文数据等。径向可视化(Radviz)是一种广泛使用的可视化技术,它能有效地显示出高维数据集中的簇结构。Radviz将样本的维度(即特征)映射到圆上,再利用物理学中的胡克定律(Hooke’s law)计算样本坐标,把样本映射到圆内。Radviz的可视化效果依赖于圆上的维度次序,不恰当的维度次序通常会导致样本簇显示过于集中、某些样本被集中显示在圆心附近、簇与簇之间重叠、杂乱等问题。传统的Radviz维度排序方法包括随机排序(参见以下非专利文献1)、基于相似维度的排序(参见以下非专利文献2和3)和基于维度均值的t-statistics(t-统计)排序(参见以下非专利文献4)等。但是,现有技术的这些排序方法均存在不足之处,例如,随机排序的可视化效果质量的高低也是随机的;基于相似维度的排序可把相似维度放置在一起,但无法保证与维度相关联的样本簇靠近这些维度;并且基于维度均值的排序将样本与取值较大的维度关联起来,但没有考虑维度与维度之间的相似性。
引用列表
【非专利文献1】:P.Hoffman,G.Grinstein,K.Marx,I.Grosse和E.Stanley.“DNA visual and analytic data mining”.In Proceedings of the8th conference on Visualization’97,pages437–ff.,Los Alamitos,CA,USA,1997。
【非专利文献2】:Caro,L.D.,Frias-Martinez,V.和Frias-Martinez,E.,“Analyzing the Role of Dimension Arrangement for Data Visualization in Radviz,”In:M.J Zaki et al.(Eds.):PAKDD2010,Part II,LNAI6119,pp.125-132,2010.Springer-Verlag,Heidelberg,2010。
【非专利文献3】:M.Ankerst,S.Berchtold和D.A.Keim.“Similarity Clustering of Dimensions for an Enhanced Visualization of Multidimensional Data”.In INFOVIS,1998。
【非专利文献4】:J.Sharko,G.Grinstein和K.A.Marx.“Vectorized radviz and its application to multiple cluster datasets”.Visualization and Computer Graphics,IEEE,2008。
【非专利文献5】:I.S.Dhillon,S.Mallela和D.S.Modha.Information-theoretic co-clustering.In Proceedings of the ninth ACM SIGKDD International Confer-ence on Knowledge Discovery and Data mining,pages89-98.ACM,2003.
【非专利文献6】:Y.Cheng和G.M.Church.Biclustering of expression data.In Proceedings of the eighth International Conference on Intelligent Systems for Molecular Biology,volume8,pages93-103,2000.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310075814.7/2.html,转载请声明来源钻瓜专利网。