[发明专利]一种预测DNA序列对靶蛋白激活情况的方法在审
申请号: | 202210584310.7 | 申请日: | 2022-05-26 |
公开(公告)号: | CN115035953A | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 赵丽娜;刘袁今生;尧浩东 | 申请(专利权)人: | 中国科学院高能物理研究所 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B40/00 |
代理公司: | 青岛智地领创专利代理有限公司 37252 | 代理人: | 陈海滨 |
地址: | 100049 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 预测 dna 序列 蛋白 激活 情况 方法 | ||
本发明提供了一种预测DNA序列对靶蛋白激活情况的方法,涉及生物序列分析及生物信息学技术领域,该方法包括:S1、基于现有的DNA序列数据集,对数据集中的每一条DNA序列进行特征向量的提取;S2、对S1中提取的特征向量进行分析,确保样本分布大致均匀,不存在某一类样本过多或过少的情况;S3、利用DNA序列的特征向量构建逻辑回归‑逐步回归模型;S4、训练S3中构建的逻辑回归‑逐步回归模型并进行评价。本发明使用的特征向量提取方法能够将复杂多样的DNA序列中蕴含的生物信息转换为简练的特征向量,对DNA序列分析中加入了逻辑回归与逐步回归相结合的模型,可以有效的剔除不显著的解释变量,在一般的机器学习模型的基础上提高了模型的准确率和敏感度。
技术领域
本发明涉及生物序列分析及生物信息学技术领域,具体涉及一种预测DNA序列对靶蛋白激活情况的方法。
背景技术
近年来随着机器学习技术的兴起和不断完善,利用机器学习来解决生物学的问题已经得到了广泛的应用,将实验与机器学习技术相结合可以大大减少工作量,更有效快速地对生物序列进行分析、挖掘和可视化,并提高生物预测的精确度。目前已应用到生物序列分析的机器学习技术包括对生物序列进行特征提取、特征分析、模型构建、模型性能评价、数据结果可视化和模型预测几个部分。
1.生物序列特征的提取;目前生物序列特征的提取手段众多,这些DNA序列特征的提取手段主要是关注DNA序列的组成情况以及其碱基对的前后相互作用和理化性质,利用对应的数学公式将其转化为数值,即可将复杂多样的DNA序列中蕴含的生物信息转换为简练的特征向量,从而方便输入到计算机中进行相应的数据计算。
2.生物序列特征的分析;在对生物序列信息的处理过程中,分析对应的样本是否采样均匀也是十分重要的一环,样本是否均匀会直接影响到训练出的模型对新序列的预测情况是否准确,所以在对生物序列进行特征提取后,还需要对高维的特征数据进行处理,分析其在样本空间的分布情况。
3.模型构建;在大数据时代不断普及的今天,许多机器学习算法和深度学习算法已经非常成熟,在机器学习算法中,常见如利用伯努利分布和极大似然函数而形成的逻辑回归算法(Logistic Regression)、利用超平面的几何间隔和最优化问题结合而形成的支持向量机算法(Support vector machines)以及将多棵决策树进行集成的随机森林算法(Random forest)。在深度学习算法中,常见如卷积神经网络(CNN)、多层感知机(MLP)等。以上所提的算法已经被广泛应用到科研的各个领域中,解决各种分类问题,但每一种算法都有它的优势与不足,所以对于一个实际的问题也需要结合不同的模型进行对比,筛选出最优的模型。
4.模型性能评价与预测;由于不同算法的原理不同,且生物序列的分析过程也复杂繁琐,所以在同一种算法下建立的模型也会因为选取的特征提取参数不同而产生一定的差异,所以要对已经构建的模型的性能进行评价,筛选出合适的模型。
以上所提到的生物序列分析方法已有部分代码或平台可以实现,如BioSeq-Analysis和ilearn-plus所提供的web端平台,两者都可以根据输入的序列进行特征提取、模型构建以及性能评价,但是后者功能相对全面,并且能够对生物序列特征进行分析,特征提取方式更多样,操作界面设计更为人性化,也能提供更多的机器学习模型供使用者选择。但是这些操作平台所提供的机器学习或是深度学习方法都属于“黑箱模型”,即研究人员只能输入序列组成,然后选择模型类型,其余的结果均交给计算机进行计算,对同一参数下的同一模型来说,其评价指标的数值在样本不发生改变的情况下并不会发生较大的变化,所以如果想要对模型优化,提高准确率,只能优化样本空间或者调整参数,人为对模型的可控性较弱,研究人员并不能在模型本身参数上对其进一步优化,存在一定的局限性。
发明内容
为解决上述问题,本发明提供一种预测DNA序列对靶蛋白激活情况的方法,设计合理,解决了现有技术的不足,具有良好的效果。
为了实现发明目的,采用以下技术方案:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院高能物理研究所,未经中国科学院高能物理研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210584310.7/2.html,转载请声明来源钻瓜专利网。