[发明专利]一种LncRNA和环境因素关联关系的高效预测方法在审
申请号: | 201911151918.5 | 申请日: | 2019-11-22 |
公开(公告)号: | CN110942803A | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 邝祝芳;汪茄琪;韩跟伟;马志豪 | 申请(专利权)人: | 中南林业科技大学 |
主分类号: | G16B15/00 | 分类号: | G16B15/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410004 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 lncrna 环境 因素 关联 关系 高效 预测 方法 | ||
本发明公开一种LncRNA和环境因素关联关系的高效预测方法,主要包括以下步骤:1、下载数据集,得到LncRNA和环境因素(EF)的列表,和二者关联关系的关联矩阵A;然后分别计算出LncRNA和EF的高斯相互作用属性核相似矩阵KL、KE。2、计算EF之间的化学结构相似性矩阵E。3、将KL进行逻辑斯蒂函数转换,得到相似矩阵SL;且利用E和KE构建EF的相似矩阵SE。4、融合A、SL和SE构建一个全局异构网络G;利用重启随机游走计算扩散特征,并使用奇异值分解降维。5、计算lncRNA‑EF对的Hetesim得分。6、结合扩散特征和HeteSim得分得到特征数据集并用于训练梯度提升树分类器去预测LncRNA‑EF的关联关系。7、使用10折交叉验证方法对提出的方法进行验证。应用本发明预测LncRNA和EF关联关系的精度高。
技术领域
本发明涉及生物信息学领域,具体涉及一种预测LncRNA和环境因素关联关系的方法。
背景技术
生物个体的先天本性和后天发展出来的行为习惯的不同主要是由遗传和环境的差异造成的。生物学家普遍认为,表型变异不是单纯由遗传或环境的差异产生,而是由两者的相互作用共同影响的;表型和疾病是由遗传因素(Genetic Factors,GFs)和环境因素(Environmental Factors,EFs)的复杂相互作用决定的。如今人们普遍认为,几乎所有的疾病都是由个体的遗传因子与其环境暴露之间复杂的相互作用引起的例如:癌症、心脏病、阿尔茨海默病和糖尿病等人类疾病均是由GFs和EFs之间复杂的相互作用引起的。
按照人类全基因转录组分析,人类基因组有大量的基因产生转录为RNA,但是仅有百分之一到百分之二的RNA翻译成蛋白质。这暗示了人类基因组有大量序列不编码蛋白质,生物体有大量非编码RNA(non-coding RNA,ncRNA)产生。随着高通量测序技术的飞速发展以及对RNA研究的深入,长非编码RNA(Long non-coding RNA,LncRNA)的研究也越来越成为热点。有研究表明LncRNA在某些生物过程起着十分重要的作用,例如染色质修饰、转录及转录调节和人类疾病。然而,由于LncRNA的调控网络复杂,其调控的潜在机制仍然不清楚。大多数LncRNA的功能仍然未知,需要进一步的探索研究。
然而,与基因和miRNA相比,利用生物信息学方法以及计算方法研究与疾病有关的LncRNA和EFs之间的关联关系却相对较少。因此,基于可用的生物数据发明有效的计算方法来预测潜在的LncRNA和环境因素之间的联系就显得非常重要。
发明内容
本发明的目的是针对现有技术的不足,提出一种基于机器学习并通过扩散特征和HeteSim得分相结合,在异构网络中预测LncRNA-环境因素关联关系的方法,能更准确地预测出LncRNA和环境因素的关联关系。
本发明提出的LncRNA和环境因素关联关系的高效预测方法,步骤如下:
1.下载公开数据库DLREFD(网址:
其中A(li,ej)=1,表示LncRNA li和环境因素ej存在关联关系,值为0表示不存在关联关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南林业科技大学,未经中南林业科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911151918.5/2.html,转载请声明来源钻瓜专利网。