[发明专利]一种基于相似性网络融合算法的生物数据网络处理方法在审
申请号: | 201910451766.4 | 申请日: | 2019-05-28 |
公开(公告)号: | CN111009285A | 公开(公告)日: | 2020-04-14 |
发明(设计)人: | 刘伟;郑明霞;赵溶;丁彦蕊 | 申请(专利权)人: | 江南大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B40/00 |
代理公司: | 哈尔滨市阳光惠远知识产权代理有限公司 23211 | 代理人: | 彭素琴 |
地址: | 214000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 相似性 网络 融合 算法 生物 数据 处理 方法 | ||
1.一种生物数据网络处理方法,其特征在于,所述方法包括:
S1:根据不同生物数据类型的样本数据集分别构建各个类型对应的样本相似性矩阵;
S2:根据S1构建的各个类型对应的样本相似性矩阵,采用SNF算法构建多种类型的样本数据的融合相似性矩阵;
S3:采用谱聚类方法将S2得到的多种类型的样本数据对应的融合相似性矩阵进行聚类确定样本数据所属子类。
2.根据权利要求1所述的方法,其特征在于,所述S1包括:
对包含有不同生物数据类型的样本数据集中的每一类型数据进行归一化处理;
归一化后计算同一类型的样本间的欧式距离,构建距离矩阵;
采用高斯热核函数构建各个类型的样本数据的样本相似性矩阵。
3.根据权利要求2所述的方法,其特征在于,所述欧式距离dij计算公式为:
其中,样本数据集共包含M个类型的样本数据,样本个数为n,mv为每个类型的样本数据所包含的基因数量,v=1…M,xik代表样本i的第k个基因,i、j取值范围为[1,n],k取值范围为[1,mv];xjk代表样本j的第k个基因。
4.根据权利要求3所述的方法,其特征在于,所述采用高斯热核函数构建各个类型的样本数据的样本相似性矩阵,包括:
每个类型的样本数据的样本相似性矩阵记为wv,则各个类型的样本数据的样本相似性矩阵为:
其中,μ为一个超参数,取值范围为[0.3,0.8];εij为用于消除缩放比例问题的参数。
5.根据权利要求4所述的方法,其特征在于,εij定义为:
其中,Ni代表除样本i之外的样本,mean(d(i,Ni))为样本xi到其他样本Ni的距离均值。
6.根据权利要求5所述的方法,其特征在于,所述S2包括:
在得到S1构建的各个类型对应的样本相似性矩阵wv后,根据下述公式得到各个类型的样本数据对应的归一化权值矩阵P(v):
∑f≠iwif表示样本i与同一类型的样本数据中其他所有样本的相似性之和,f取值范围为[1,n];
定义用来测量局部亲和力的核矩阵S,记各个类型的样本数据对应的核矩阵为S(v):
为样本i的前g个相似性最高的样本相似性之和,g取值范围为[20,30];
采用SNF算法更新每个数据类型对应的样本相似性矩阵wv,迭代预定次数后,得到更新后的P(v)′:
其中,∑k≠vP(k)表示除了当前数据类型v之外的所有数据类型对应的归一化矩阵P(v)之和;
融合所有数据类型的相似性矩阵得到融合相似性矩阵P:
7.根据权利要求6所述的方法,其特征在于,所述迭代预定次数为迭代10-20次。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:根据样本相似性矩阵得到样本相似性网络。
9.权利要求1-8任一所述的方法在分析疾病亚型鉴定方面的应用。
10.权利要求1-8任一所述的方法在生物信息分析技术领域内的应用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910451766.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:多功能轻便矿灯
- 下一篇:机动车辆中的拖车装载辅助方法和装置