[发明专利]一种基于相似性网络融合算法的生物数据网络处理方法在审

专利信息
申请号: 201910451766.4 申请日: 2019-05-28
公开(公告)号: CN111009285A 公开(公告)日: 2020-04-14
发明(设计)人: 刘伟;郑明霞;赵溶;丁彦蕊 申请(专利权)人: 江南大学
主分类号: G16B20/00 分类号: G16B20/00;G16B40/00
代理公司: 哈尔滨市阳光惠远知识产权代理有限公司 23211 代理人: 彭素琴
地址: 214000 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 相似性 网络 融合 算法 生物 数据 处理 方法
【权利要求书】:

1.一种生物数据网络处理方法,其特征在于,所述方法包括:

S1:根据不同生物数据类型的样本数据集分别构建各个类型对应的样本相似性矩阵;

S2:根据S1构建的各个类型对应的样本相似性矩阵,采用SNF算法构建多种类型的样本数据的融合相似性矩阵;

S3:采用谱聚类方法将S2得到的多种类型的样本数据对应的融合相似性矩阵进行聚类确定样本数据所属子类。

2.根据权利要求1所述的方法,其特征在于,所述S1包括:

对包含有不同生物数据类型的样本数据集中的每一类型数据进行归一化处理;

归一化后计算同一类型的样本间的欧式距离,构建距离矩阵;

采用高斯热核函数构建各个类型的样本数据的样本相似性矩阵。

3.根据权利要求2所述的方法,其特征在于,所述欧式距离dij计算公式为:

其中,样本数据集共包含M个类型的样本数据,样本个数为n,mv为每个类型的样本数据所包含的基因数量,v=1…M,xik代表样本i的第k个基因,i、j取值范围为[1,n],k取值范围为[1,mv];xjk代表样本j的第k个基因。

4.根据权利要求3所述的方法,其特征在于,所述采用高斯热核函数构建各个类型的样本数据的样本相似性矩阵,包括:

每个类型的样本数据的样本相似性矩阵记为wv,则各个类型的样本数据的样本相似性矩阵为:

其中,μ为一个超参数,取值范围为[0.3,0.8];εij为用于消除缩放比例问题的参数。

5.根据权利要求4所述的方法,其特征在于,εij定义为:

其中,Ni代表除样本i之外的样本,mean(d(i,Ni))为样本xi到其他样本Ni的距离均值。

6.根据权利要求5所述的方法,其特征在于,所述S2包括:

在得到S1构建的各个类型对应的样本相似性矩阵wv后,根据下述公式得到各个类型的样本数据对应的归一化权值矩阵P(v)

f≠iwif表示样本i与同一类型的样本数据中其他所有样本的相似性之和,f取值范围为[1,n];

定义用来测量局部亲和力的核矩阵S,记各个类型的样本数据对应的核矩阵为S(v)

为样本i的前g个相似性最高的样本相似性之和,g取值范围为[20,30];

采用SNF算法更新每个数据类型对应的样本相似性矩阵wv,迭代预定次数后,得到更新后的P(v)′

其中,∑k≠vP(k)表示除了当前数据类型v之外的所有数据类型对应的归一化矩阵P(v)之和;

融合所有数据类型的相似性矩阵得到融合相似性矩阵P:

7.根据权利要求6所述的方法,其特征在于,所述迭代预定次数为迭代10-20次。

8.根据权利要求7所述的方法,其特征在于,所述方法还包括:根据样本相似性矩阵得到样本相似性网络。

9.权利要求1-8任一所述的方法在分析疾病亚型鉴定方面的应用。

10.权利要求1-8任一所述的方法在生物信息分析技术领域内的应用。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910451766.4/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top