[发明专利]数据矩阵中局部相似性子矩阵双向聚类检测方法在审
申请号: | 201310625930.1 | 申请日: | 2013-11-22 |
公开(公告)号: | CN103617249A | 公开(公告)日: | 2014-03-05 |
发明(设计)人: | 张艳洁;胡占义;孙立民 | 申请(专利权)人: | 烟台大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 264005 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 矩阵 局部 相似 性子 双向 检测 方法 | ||
技术领域
本发明涉及计算机技术领域中的数据智能信息处理,特别涉及数据矩阵中局部相似性子矩阵双向聚类检测方法及其实现,本发明有助于发掘数据矩阵中存在的重要知识和规律。
背景技术
传统的聚类或者分类算法都是以数据矩阵中的行向量或者列向量整体作为分析对象称之为特征向量。向量中的元素又称之为特征,它对于一般的变形和失真保持不变或几乎不变,并且只含尽可能少的冗余信息。在决策理论中,特征提取占有重要的地位,它通过分析具体识别对象来决定选取哪些特征,特征提取过程不仅压缩了信息量,而且易于分类。特征提取之后通过引入某种相似性度量准则即判别函数来计算出相应于各类别的判别函数值,通过判别函数值进行特征分类,即从特征空间映射到决策空间。对于普通的模式识别问题而言,它是抛开具体的特征涵义而只是就向量本身来解决某种尺度下的相似性问题的。而对于局部相似性子矩阵的检测问题而言,位于同一个局部相似性子矩阵中的所谓特征向量并不是显式存在的,特征向量与局部相似性子矩阵矩阵在某种意义上是鸡与蛋谁先有的悖论。所以对于这个问题首先要解决的是特征向量问题,也就是说什么位置的什么样的元素组合在一起可以在原始的数据矩阵中形成有意义的局部相似性子矩阵。
所谓的双向聚类技术是指给定一个数据矩阵,检测其中由某些行和某些列构成的子矩阵,这些子矩阵的行向量或者列向量满足某种函数约束关系,这样的子矩阵称之为局部相似性子矩阵。由于每一个局部相似性子矩阵B都是由原始数据矩阵D中位于某些行和某些列的元素所组成的,所以B可以通过记录这些元素所在的行号集合R和列号集合C来表征。局部相似性子矩阵B所包含的行号数目和列号数目均需满足大于等于2,亦即最小尺寸的局部相似性子矩阵需要包含4个元素。这些局部相似性子矩阵揭示了原始数据矩阵中蕴涵的重要知识和规律,如对某一人群进行某项心理测试,将每个人的测试结果作为数据矩阵的一行可以得到针对于该人群的心理测试原始数据矩阵,该矩阵中存在的每一个局部相似性子矩阵即意味着某些人对某些问题给出了相同或者相近的选择,从而他们有着相同或者相近的心理行为反应,这对于总体把握该人群的心理特征是非常重要的。
给定任意一个大尺寸的数据矩阵,检测其中可能存在的局部相似性子矩阵是困难的。这是因为位于同一个局部相似性子矩阵内的元素由于受到相同函数关系的约束呈现出很强的相关性,可是这些元素与数据矩阵中的其它元素混杂在一起,从而会受到其他非相关元素的影响。数据矩阵采集生成过程中往往会存在噪声干扰,噪声的存在一方面会减弱局部相似性子矩阵内元素的相关性,另一方面也会增加局部相似性子矩阵内元素与数据矩阵中其它元素的区分难度。如果直接应用传统的聚类或者分类算法来进行大尺寸数据矩阵的局部相似性子矩阵检测时就会出现严重的问题,那些被分到不同类中的向量实际上是可能存在着局部的相似性关系的,也是就是说相关元素与不相关元素相互纠缠在一起使得问题变得非常复杂。
现有技术的缺点在于:(1)所能检测的局部相似性子矩阵类型有限;(2)不能检测输出原始数据矩阵中存在的所有局部相似性子矩阵,由于对于任意给定的数据矩阵其中可能存在的局部相似性子矩阵数量、尺寸和位置关系都是未知的,算法是否能够检测输出其中存在的所有局部相似性子矩阵是一件非常具有挑战性的工作;(3)在检测具有重叠情形的局部相似性子矩阵时面临困难;很多现有已发表论文的工作都是将局部相似性子矩阵检测转化为一个目标函数的优化求解问题,这些方法无法解决的一个问题就是,当从原始数据矩阵中检测到某个局部相似性子矩阵之后,如何处理原始数据矩阵中被该局部相似性子矩阵所覆盖位置处元素的值。若采用重新赋值则必然会对具有重叠情形的局部相似性子矩阵检测产生严重影响,甚至导致无法继续检测。现有的局部相似性子矩阵检测技术无法处理复合类型的数据,而在实际情况中,很多数据库中的数据都是复合型的,这就使得这些技术的应用范围受到限制。
发明内容
本发明既可以应用于文本型数据矩阵也可以应用于数值类型的数据矩阵。本发明的检测过程没有对任何数据进行修改,而是基于聚类结果来一层一层检测输出,所以新算法从本质上适用于重叠情形的局部相似性子矩阵检测。本发明整个检测过程完全自动化,不需要人为的去选择或设置某些参数,从而大大减小技术使用者的劳动强度,可以使得使用者只需关注检测结果的分析即可。检测结果直观易读。数据经过处理以后,如果能够检测到局部相似性子矩阵,由于局部相似性子矩阵是直接由数据矩阵中某些满足某种约束关系的元素构成的,所以它具有非常好的结果可读性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于烟台大学,未经烟台大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310625930.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于注塑安全头盔的模具
- 下一篇:一种注塑机锁紧保护装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置