[发明专利]一种对异质网络中的节点进行聚类的方法有效
申请号: | 201510823808.4 | 申请日: | 2015-11-24 |
公开(公告)号: | CN105512511B | 公开(公告)日: | 2018-07-06 |
发明(设计)人: | 谢茂强;徐英杰;张耀功;韩芳宇;黄亚楼;刘杰;何志成 | 申请(专利权)人: | 南开大学 |
主分类号: | G06F19/24 | 分类号: | G06F19/24 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李林娟 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 关联矩阵 关联关系 节点聚类 构建 矩阵 异质网络 异质 归一化处理 层次结构 多层关联 非负矩阵 生物信息 数据挖掘 建模 两层 分解 优化 | ||
本发明公开了一种对异质网络中的节点进行聚类的方法,该聚类方法属于数据挖掘、生物信息领域,该聚类方法包括以下步骤:根据异质节点间的关联关系数据,构建相邻两层节点间关联矩阵;对于具有层次结构的节点,根据节点间的层次关联关系,构建不同层次的节点内层次关联矩阵;以节点间关联矩阵和节点内层次关联矩阵作为输入,构建一致性多非负矩阵分解模型,并进行优化,得到节点聚类矩阵;对节点聚类矩阵进行归一化处理,若节点与簇的相关性大于给定阈值,则认为该节点属于该簇,完成对节点的聚类。本发明实现了对异质节点间多层关联关系和节点内层次关联关系进行建模,达到了很好的节点聚类效果。
技术领域
本发明涉及数据挖掘、生物信息领域,为一种对异质网络中的节点进行聚类的方法。
技术背景
近些年来,异质网络的研究得到了广泛的关注,在协同聚类、推荐系统等应用中得到广泛应用。图1为异质网络中节点间关联关系示意图。图中包含两种类型的节点,分别用方形和圆圈表示在这两类节点间存在一些已知的关联关系(如在商品推荐中,某个用户购买了某种商品;在生物信息领域中,某种基因导致了某种表型的出现)。在实际应用中,其中一类节点内部可能存在层次关系的特征(如音乐推荐中唱片和单曲之间存在层次关系,一张唱片同时包含多个单曲;生物信息中的表型本体间存在层次隶属关系),如图2所示,在圆圈代表的一类节点类型中,节点间可以细化分为多个层次,而这些节点分布在不同的层次上。这种层次结构关系为人们研究异质节点间的关系提供了重要信息。
表型本体是用统一的结构化、层次化的专业术语描述表型间的关系,由于其用词统一、结构关系清楚的特点,近些年来本体描述在生物信息领域受到了广泛的关注,并为使用计算机方法解决生物信息问题,提供了新的思路。位于不同层次上的表型以不同的粒度描述了表型的特性,表型本体间的层次关联关系为研究生物信息问题提供了重要信息。
发明人在实现本发明的过程中,发现现有技术中至少存在以下缺点和不足:
现有技术中在对异质网络中的节点进行聚类过程中无法对包含层次信息的节点按层次关系进行细分,一种方式是只抽取其中某一层的节点,这种方式无法充分利用已知的关联信息;另一种是将在所有在不同层次上的节点看作在同一层上,这种方式忽略了不同层次中节点间描述粒度存在差异的事实。以上两种方法都不能充分的利用异质节点间的关联关系或节点内部的层次关联关系。
发明内容
为了解决现有技术不能充分利用异质节点间的关联关系和节点内部的层次关联关系的不足,本发明主要目的在于提供了一种对异质网络中的节点进行聚类的方法,本发明实现了对异质节点间多层关联关系和节点内层次关联关系进行建模,达到了很好的节点聚类效果,详见下文描述:
一种对异质网络中的节点进行聚类的方法,所述聚类方法包括以下步骤:
根据异质节点间的关联关系数据,构建相邻两层节点间关联矩阵;
对于具有层次结构的节点,根据节点间的层次关联关系,构建不同层次的节点内层次关联矩阵;
以节点间关联矩阵和节点内层次关联矩阵作为输入,构建一致性多非负矩阵分解模型,并进行优化,得到节点聚类矩阵;
对节点聚类矩阵进行归一化处理,若节点与簇的相关性大于给定阈值,则认为该节点属于该簇,完成对节点的聚类。
其中,所述一致性多非负矩阵分解模型由多矩阵一致性分解损失项、表型本体间层次约束项、稀疏约束和非负约束四部分组成。
进一步地,所述多矩阵一致性分解损失项为:
用于约束在两个节点间关联矩阵上同时进行矩阵分解,在分解得到的聚类相同的情况下,保持分解前后损失尽可能的小。
进一步地,所述表型本体间层次约束项为:
用于约束分解后得到的表型特征矩阵,对于具有父子关系的表型本体之间的相似性尽可能的大。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510823808.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种嵌入式软件加密方法
- 下一篇:一种健康检测单元的建立方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用