[发明专利]基于混沌博弈算法的miRNA-疾病相关性预测方法在审
申请号: | 201910091125.2 | 申请日: | 2019-01-30 |
公开(公告)号: | CN109920476A | 公开(公告)日: | 2019-06-21 |
发明(设计)人: | 郑凯;尤著宏;周勇;李政伟;詹朝惠 | 申请(专利权)人: | 中国矿业大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16H50/50 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 彭雄 |
地址: | 221116 江苏省徐*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于混沌博弈算法的miRNA‑疾病相关性预测方法,包括数据集的选择与建立,疾病语义相似矩阵、疾病高斯相似矩阵、miRNA高斯相似矩阵的生成,相似矩阵的融合,混沌博弈算法提取特征值,训练集和测试集的构建,分类器模型构建步骤完成,该方法是利用混沌博弈算法处理序列样本集的特征并得到特征值,使数据集的信息量大为增加;本发明能够利用宽度学习的方法构建模型,大大提高了预测精度,能够得到比较好的预测效果;本发明方法计算代价低,功耗小。 | ||
搜索关键词: | 博弈算法 相似矩阵 混沌 构建 疾病 预测 数据集 高斯 分类器模型 语义 处理序列 测试集 训练集 样本集 功耗 信息量 融合 学习 | ||
【主权项】:
1.一种基于混沌博弈算法的miRNA‑疾病相关性预测方法,其特征在于,包括以下步骤:步骤a、数据集的选择与建立:利用HMDD v3.0数据库中的数据集构建预测miRNA‑疾病相关性的数据集;步骤b、疾病高斯相似度矩阵和miRNA高斯相似度矩阵的生成:根据步骤a得到的miRNA‑疾病相关性的数据集利用“两个功能相近的miRNA倾向于与表型相似的疾病存在关联,反之亦然”的假设,通过下式分别计算得到疾病高斯相似度矩阵、miRNA高斯相似度矩阵;KD(d(a),d(b))=exp(‑γd*||IP(d(a))‑IP(d(b))||2)KM(m(a),m(b))=exp(‑γd*||IP(m(a))‑IP(m(b))||2)其中,KD(d(a),d(b))表示疾病高斯相似度矩阵,d(a)表示疾病a,d(b)表示疾病b,a表示疾病序号,b表示疾病序号,
γd表示疾病的核宽系数,nd表示疾病数量,d表示疾病,IP(d(a))表示邻接矩阵A的第a行向量,m(a)表示miRNA a,m(b)表示miRNA b,
γm表示核宽系数,nm表示miRNA数量;步骤c、语义相似度矩阵的生成:每个疾病根据MeSH主题词构建出对应有向无环图,根据每个疾病的有向无环图通过以下公式计算得到两个的语义相似度矩阵:语义相似矩阵1:![]()
![]()
其中,Δ是语义贡献度惩罚系数,Dd(t)表示某个疾病中疾病t的语义贡献度,t表示疾病t,D表示疾病D,Dd(t′)表示某个疾病中疾病t‘的语义贡献度,children of t表示疾病t的孩子节点,DV(D)表示疾病D的语义值,Td表示一个节点包含疾病和他的祖先疾病,Sim1(d(i),d(j))表示疾病i与疾病j的语义相似度1,Td(i)表示一个节点包含疾病i和他的祖先疾病,i表示疾病序号,j表示疾病序号,Dd(i)(t)表示疾病i中疾病t的语义贡献度,Dd(j)(t)表示疾病j中疾病t的语义贡献度,DV(d(i))表示疾病i的语义值,DV(d(j))表示疾病j的语义值;语义相似矩阵2:![]()
其中,D2d(t)表示某个疾病中疾病t的语义贡献度,number of DAGs including t表示所有包含疾病t的DAG图的数量,number of disease表示疾病数量,Sim2(d(i),d(j))表示疾病i与疾病j的语义相似度2,D2d(i)(t)表示疾病i中疾病t的语义贡献度,D2d(j)(t)表示疾病i中疾病t的语义贡献度2;步骤d、整合疾病相似度矩阵和miRNA相似度矩阵:疾病相似度矩阵以语义相似度矩阵为基础,其他矩阵空位由疾病高斯相似度矩阵填补,miRNA相似度矩阵以现有的miRNA功能相似度矩阵为基础,其他矩阵空位由miRNA高斯相似度矩阵填补,疾病相似度矩阵和miRNA相似度矩阵计算公式如下:![]()
其中,SD(d(a),d(b))表示整合后的疾病相似度矩阵,Sim1(d(a),d(b))表示疾病a中疾病b的语义相似度1,Sim2(d(a),d(b))表示疾病a中疾病b的语义相似度2,KD(d(a),d(b))表示疾病高斯相似度矩阵,Sim1表示语义相似度1,Sim2表示语义相似度2,KD(d(a),d(b))表示,SM(m(a),m(b))表示整合后的miRNA相似度矩阵,FS(m(a),m(b))表示,FS表示miRNA功能相似度矩阵,KM(m(a),m(b))表示miRNA高斯相似度矩阵;将得到的疾病相似度矩阵与miRNA相似度矩阵根据HMDD v3.0提供的关系矩阵进行拼接,得到阳性特征集,在随机抽取相同数量的未证实的关系对,将疾病相似度矩阵与miRNA相似度矩阵拼接成阴性特征集;步骤e、利用混沌博弈提取miRNA序列特征值:利用混沌博弈提取miRNA序列特征值:将每一条miRNA序列通过混沌博弈提取特征,形成一个64维的混沌博弈谱,公式如下:CGRi=CGRi‑1+θ*(CGRi‑1‑gi)其中,CGRi表示第i个核苷酸,i表示核苷酸序号,CGRi‑1表示第i‑1个核苷酸,θ表示惩罚系数,gi表示核苷酸系数;根据混沌博弈表示图计算得到频率矩阵,将得到的频率矩阵与其他频率矩阵计算相关系数得到miRNA序列相似度矩阵,再根据阴、阳性特征集得到序列特征向量,使得miRNA与其序列特征一一对应;步骤f、奇异值分解方法降维:利用奇异值分解方法分别将阳性特征集、阴性特征集、miRNA序列相似度矩阵降低到32维,以去除噪音因素的影响;步骤g、整合数据集:将降32维的阳性特征集和阴性特征集与降至32维的miRNA序列相似度矩阵再次拼接得到最终的数据集;步骤h、训练集和测试集的构建:在HMDD v3.0数据集上,分别以数量比为4∶1的比例随机切割步骤g得到的最终的数据集,其中4/5作为训练集,1/5作为测试集,然后利用5折交叉验证的方法进行五次切割并验证;步骤i、分类器模型构建:利用宽度学习方式构建分类器模型,将步骤h得到的训练集和测试集放入到分类器模型进行训练,得到训练好的分类器模型,通过训练好的分类器模型对miRNA‑疾病相关性进行预测。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学,未经中国矿业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910091125.2/,转载请声明来源钻瓜专利网。