[发明专利]基于样本数据预测蛋白质复合物的方法有效

申请号：	201810283299.4	申请日：	2018-04-02
公开（公告）号：	CN108681659B	公开（公告）日：	2022-04-05
发明（设计）人：	刘丽珍;孙晓武;宋巍	申请（专利权）人：	首都师范大学
主分类号：	G16B40/30	分类号：	G16B40/30;G16B40/20;G16B20/00
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	赵天月
地址：	100037 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于样本数据预测蛋白质复合物方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于样本数据预测蛋白质复合物的方法，其特征在于，包括：

(1)基于所述样本数据构建加权PPI网络并将所述加权PPI网络进行去噪处理，所述去噪处理是通过将基因本体的语义相似度作为PPI网络的权重进行加权的；

(2)基于去噪处理后的加权PPI网络构建动态加权PPI网络；

(3)利用混合聚类算法预测蛋白质复合物，

其中，基于去噪处理后的加权PPI网络构建动态加权PPI网络是通过如下方式实现的：

将去噪处理后的加权PPI网络的各蛋白质基因表达的数据与区间估计相结合进行第一计算处理，以便获得总体的均值μ'(p)和方差σ'²(p)；

将所述总体的均值μ'(p)和方差σ'²(p)进行第二计算处理，以便获得各蛋白质基因表达的阈值nAct(p)；

所述第一计算处理和所述第二计算处理包括以下步骤：

所述各蛋白质基因表达的阈值nAct(p)是通过公式获得的，

所述总体的均值μ'(p)是通过公式获得的，

所述总体的方差σ'²(p)是通过公式获得的，

假设蛋白质p的基因表达数据总体服从正态分布N(μ,σ)，χ₁,χ₂,…,χ_n是基因表达数据的样本，其中，k是可调节参数，k为1，2或3，表示样本均值，t表示统计量，所述t是通过公式获得的，α表示置信水平，n表示样本的个数，s²表示样本方差，χ²(n-1)表示自由度为n-1的卡方分布，mst表示总体均值的步长，所述mst是通过公式获得的，vst表示总体方差的步长，所述vst是通过公式获得的，max m,min m,max v,min v分别表示总体均值和总体方差的区间估计的上下限，d表示取值范围在0～12之间的参数，当d的值为0时，表示此时总体均值和总体方差取到置信区间的最小值，当d的值为12时，表示此时总体均值和总体方差为置信区间内的最大值；

通过所述各蛋白质基因表达的阈值nAct(p)判断各蛋白质第i时刻被激活的概率；

通过所述各蛋白质第i时刻被激活的概率构建动态加权PPI网络net_i。

2.根据权利要求1所述的方法，其特征在于：

其中，若蛋白质p在第i时刻的表达值exp(p_i)小于阈值，则蛋白质被激活的概率为0；若蛋白质p在第i时刻的表达值exp(p_i)大于或等于阈值，则蛋白质被激活的概率为1；

第i时刻的动态加权PPI网络net_i表示为

其中，Pr_i表示在第i时刻所有蛋白质激活概率组成的列向量，表示数组对应元素相乘，W表示加权矩阵，T表示矩阵的转置，·表示点乘。

3.根据权利要求1所述的方法，其特征在于，进一步包括：将所述基因本体的语义相似度进行预处理，所述预处理是通过主成分分析剔除计算基因本体语义相似度的不同方法中相同或相近的部分来实现的。

4.根据权利要求1所述的方法，其特征在于，所述混合聚类算法为融合了KNN思想的MCL聚类算法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于首都师范大学，未经首都师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810283299.4/1.html，转载请声明来源钻瓜专利网。