[发明专利]一种烟草线粒体RNA编辑位点高精度预测方法有效

专利信息
申请号: 201810468630.X 申请日: 2018-05-16
公开(公告)号: CN108595914B 公开(公告)日: 2021-06-25
发明(设计)人: 周玮;范彦君;蔡训辉;王如意 申请(专利权)人: 湖南农业大学
主分类号: G16B40/20 分类号: G16B40/20;G16B50/10
代理公司: 长沙正奇专利事务所有限责任公司 43113 代理人: 何为;王娟
地址: 410128 *** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 烟草 线粒体 rna 编辑 高精度 预测 方法
【说明书】:

发明公开了一种烟草线粒体RNA编辑位点高精度预测方法,下载拟南芥、欧洲油菜和稻三个样本的线粒体全基因组序列,提取位点信息;融合烟草ATP合酶上的atp9,atp6,orf25,orfB,atp1五个目的基因的DNA序列和cDNA序列比对得到的编辑位点数据共同组成数据集;从全基因组中得到负样本;确定最优特征;针对最优特征,对训练集‑测试集按照9:1、8:2、7:3、6:4、5:5进行分类,基于高维特征快速非线性汰选方法对五种比例的训练集‑测试集中的训练集进行高维特征筛选;基于高维特征筛选后保留的有效特征,利用SVC分别对测试集和验证集进行独立预测,得到有效模型;确定最优模型;本发明适用于烟草线粒体RNA编辑位点预测,减少了预测的计算量,并保证了预测的高精度。

技术领域

本发明涉及一种烟草线粒体RNA编辑位点高精度预测方法。

背景技术

传统的RNA编辑位点是通过对比DNA与cDNA序列差异得到,自20世纪以来随着电子信息时代的来临,很多研究者们开始对RNA编辑现象进行理论预测,这样做的优点是节省了大量重复测序比对所耗费的时间和精力。关于RNA编辑位点的预测模型多种多样,大多数都是从氨基酸水平上进行分析,通过研究编码氨基酸的变化来探索RNA编辑与否,少数模型利用到了核酸序列来进行理论预测。烟草保持系线粒体基因组在NCBI数据库中有RNA编辑位点相关注释,而烟草不育系线粒体基因组在NCBI数据库中并未注释出RNA编辑位点,且现有的RNA编辑位点预测模型数据库中与烟草相关的数据较少。

发明内容

本发明所要解决的技术问题是,针对现有技术不足,提供一种烟草线粒体RNA编辑位点高精度预测方法,更精确地预测烟草线粒体编辑位点。

为解决上述技术问题,本发明所采用的技术方案是:一种烟草线粒体RNA编辑位点高精度预测方法,包括以下步骤:

1)从NCBI数据库中下载拟南芥、欧洲油菜和稻三个样本的线粒体全基因组序列保存为fasta格式,根据RNA编辑的最新注释,提取位点信息;融合烟草ATP合酶上的atp9,atp6,orf25,orfB,atp1五个目的基因的DNA序列和cDNA序列比对得到的编辑位点数据共同组成数据集;

2)从三个样本的线粒体全基因组的fasta格式文件中根据注释信息提取正样本和参考REGAL中的负样本信息,从全基因组中得到负样本;

3)在正样本第一列添加y值1,负样本第一列添加y值0,将添加y值后的正、负样本组合在一起,再将组合好的样本全部随机打乱,从随机打乱后的样本数据中取60%作为训练集,剩余40%作为测试集,得到6:4的样本比例;同样的方法从随机打乱后的样本数据中得到剩余5:5、7:3、8:2和9:1四种比例;

4)选用6:4比例样本集,对下表中的七组特征进行SVC独立测试,确定最优特征;

5)针对最优特征,对训练集-测试集按照9:1、8:2、7:3、6:4、5:5进行分类,基于高维特征快速非线性汰选方法对五种比例的训练集-测试集中的训练集进行高维特征筛选;

6)基于高维特征筛选后保留的有效特征,利用SVC分别对测试集和验证集进行独立预测;所述验证集是指:由烟草线粒体ATP酶上5个亚基的编辑位点信息构建的36个新的正样本,从烟草线粒体上随机取30个以C为中心的501bp窗口长度的样本为新的负样本,对新的正样本和负样本分别添加y值组成验证集。

步骤2)中,正样本的提取过程为:将fasta格式文件导入matlab提取正样本。

步骤2)中,负样本的提取过程为:将41bp的REGAL样本数据导入matlab,将样本数据与相应样本线粒体全基因组fasta数据进行比对,找到41bp窗口长度样本所在的位置,前后取相应bp的长度,得到以C为中点,最终501bp窗口长度数据作为负样本。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南农业大学,未经湖南农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810468630.X/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top