[发明专利]一种烟草线粒体RNA编辑位点高精度预测方法有效
申请号: | 201810468630.X | 申请日: | 2018-05-16 |
公开(公告)号: | CN108595914B | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 周玮;范彦君;蔡训辉;王如意 | 申请(专利权)人: | 湖南农业大学 |
主分类号: | G16B40/20 | 分类号: | G16B40/20;G16B50/10 |
代理公司: | 长沙正奇专利事务所有限责任公司 43113 | 代理人: | 何为;王娟 |
地址: | 410128 *** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种烟草线粒体RNA编辑位点高精度预测方法,下载拟南芥、欧洲油菜和稻三个样本的线粒体全基因组序列,提取位点信息;融合烟草ATP合酶上的atp9,atp6,orf25,orfB,atp1五个目的基因的DNA序列和cDNA序列比对得到的编辑位点数据共同组成数据集;从全基因组中得到负样本;确定最优特征;针对最优特征,对训练集‑测试集按照9:1、8:2、7:3、6:4、5:5进行分类,基于高维特征快速非线性汰选方法对五种比例的训练集‑测试集中的训练集进行高维特征筛选;基于高维特征筛选后保留的有效特征,利用SVC分别对测试集和验证集进行独立预测,得到有效模型;确定最优模型;本发明适用于烟草线粒体RNA编辑位点预测,减少了预测的计算量,并保证了预测的高精度。 | ||
搜索关键词: | 一种 烟草 线粒体 rna 编辑 高精度 预测 方法 | ||
【主权项】:
1.一种烟草线粒体RNA编辑位点高精度预测方法,其特征在于,包括以下步骤:1)从NCBI数据库中下载拟南芥、欧洲油菜和稻三个样本的线粒体全基因组序列保存为fasta格式,根据RNA编辑的最新注释,提取位点信息;融合烟草ATP合酶上的atp9,atp6,orf25,orfB,atp1五个目的基因的DNA序列和cDNA序列比对得到的编辑位点数据共同组成数据集;2)从三个样本的线粒体全基因组的fasta格式文件中根据注释信息提取正样本和参考REGAL中的负样本信息,从线粒体基因组中得到负样本;3)在正样本第一列添加y值1,负样本第一列添加y值0,将添加y值后的正、负样本组合在一起,再将组合好的样本全部随机打乱,从随机打乱后的样本数据中取60%作为训练集,剩余40%作为测试集,得到6:4的样本比例;同样的方法从随机打乱后的样本数据中得到剩余5:5、7:3、8:2和9:1四种比例;4)选用6:4比例的样本集,对下表中的七组特征进行SVC独立测试,确定最优特征;5)针对最优特征,对训练集‑测试集按照9:1、8:2、7:3、6:4、5:5进行分类,基于高维特征快速非线性汰选方法对五种比例的训练集‑测试集中的训练集进行高维特征筛选;6)基于高维特征筛选后保留的有效特征,利用SVC分别对测试集和验证集进行独立预测;所述验证集是指:由烟草线粒体ATP酶上5个亚基的编辑位点信息构建的36个新的正样本,从烟草线粒体上随机取30个以C为中心的501bp窗口长度的样本为新的负样本,对新的正样本和负样本分别添加y值组成验证集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南农业大学,未经湖南农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810468630.X/,转载请声明来源钻瓜专利网。