[发明专利]一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法有效

专利信息
申请号: 201910468279.9 申请日: 2019-05-31
公开(公告)号: CN110222089B 公开(公告)日: 2021-05-14
发明(设计)人: 钟佳琪;李东;方琼 申请(专利权)人: 华南理工大学
主分类号: G06F16/2458 分类号: G06F16/2458;G06F16/28
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 何淑珍;陈伟斌
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 保序子 矩阵 约束 双聚类 挖掘 缺失 预测 方法
【说明书】:

发明公开了一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,包括以下步骤:S1、接收请求并挖掘数据矩阵的双聚类模式;S2、计算行和列的重叠度和覆盖率;S3、判断行列覆盖率是否收敛,若否则进行步骤S4,否则进行步骤S9;S4、随机打乱数据矩阵中行和列的排列顺序,对候选列集合排序;S5、判断候选列集合是否为空;S6、判断候选列集合中是否存在合格列;S7、根据新选出的合格列扩展双聚类模式的列集合和行集合;S8、判断当前双聚类模式是否符合稀疏保序子矩阵模型的要求;S9、计算每个双聚类模式的缺失值;S10、返回最终的双聚类集合和缺失值。因此,本发明有效地提高了双聚类模式的质量和缺失值预测的准确性。

技术领域

本发明涉及双聚类模式挖掘领域,具体涉及一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法。

背景技术

一般的聚类是根据数据的全部属性将数据聚类,这种聚类方式称为传统聚类。传统聚类只能寻找全局信息,无法找到局部信息,而大量的有趣信息就隐藏在这些局部信息中。为了更好地在数据矩阵中搜索局部信息,人们提出双聚类的概念。所谓双聚类,也叫子矩阵模式,是数据矩阵中具有局部相似性的一组行子集和一组列子集组合成的一个子矩阵,它表示这组行在这组列集合上的表现具有某种局部相似性。而双聚类挖掘就是通过在数据矩阵中挖掘出满足事先定义的子矩阵模型的所有子矩阵来捕获数据矩阵中有趣的局部相似性。例如,在推荐系统领域中,对于Netflix电影评分数据矩阵,一个双聚类是指具有局部相似性的一组用户子集和一组电影子集组成的一个子矩阵,它表示这些用户对这组电影的喜好是相似的。

目前关于双聚类的研究主要分为两类:无约束双聚类和分区双聚类。无约束双聚类能保证挖掘出的模式质量,但由于在挖掘过程中没有考虑到重叠和覆盖约束,可能导致搜索空间中模式数量爆炸和模式之间冗余度很高等问题,因此它主要在较小的数据矩阵中进行研究,这在诸如推荐系统和文本挖掘等现实应用中是不实际的。而分区双聚类虽然对于处理大型数据矩阵是有效的,但是它将模式限制为网格分布,即把数据矩阵强制划分成一个个互不相交的子矩阵,因此无法保证每个单一模式的质量。

保序子矩阵模型(OPSM)是子矩阵模型中具有代表性的一类,大量研究表明,OPSM模型及其放宽条件的变体模型能够很好地促进有趣的生物学相关性的发现。然而,当数据矩阵变得非常大时,这些方法不能很好地扩展。此外,在保序子矩阵模式挖掘过程中没有考虑到重叠或覆盖约束,也没有解决稀疏矩阵的问题。

发明内容

本发明的目的是针对现有技术的不足,提供了一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,所述方法针对已有的双聚类方法的局限性,在双聚类挖掘过程中添加重叠度和覆盖率约束来控制模式的分布,避免模式冗余和模式数量爆炸,有效地提高了模式的质量;同时为了能够处理稀疏数据矩阵,提供了一种稀疏保序子矩阵模型,使得模式中允许存在缺失值;最后提供了一种线性拟合的方法计算模式中的缺失值,从而有效地提高了缺失值预测的准确性。

本发明至少通过如下技术方案之一实现。

一种基于保序子矩阵的约束双聚类挖掘及缺失值预测方法,所述方法包括以下步骤:

S1、用户输入双聚类模式挖掘的请求内容,计算机接收请求并挖掘请求内容中待挖掘的数据矩阵的双聚类模式;

S2、计算当前双聚类模式集合的行和列的重叠度和覆盖率;

S3、判断行和列的覆盖率是否均已收敛,若否则进行步骤S4,若是则进行步骤S9;

S4、随机打乱数据矩阵中行和列的排列顺序,用打乱排列顺序之后的数据矩阵的列集合初始化双聚类模式的候选列集合,再对候选列集合中的列按照重叠度从小到大排序,若存在两列的重叠度相同,则按照列的随机排列顺序从小到大排序;

S5、判断候选列集合是否为空,若是则返回步骤S2更新挖掘后的当前双聚类模式集合的行和列的覆盖率和重叠度信息,若否则进行步骤S6;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910468279.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top