[发明专利]一种烟草线粒体RNA编辑位点高精度预测方法有效

专利信息
申请号: 201810468630.X 申请日: 2018-05-16
公开(公告)号: CN108595914B 公开(公告)日: 2021-06-25
发明(设计)人: 周玮;范彦君;蔡训辉;王如意 申请(专利权)人: 湖南农业大学
主分类号: G16B40/20 分类号: G16B40/20;G16B50/10
代理公司: 长沙正奇专利事务所有限责任公司 43113 代理人: 何为;王娟
地址: 410128 *** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种烟草线粒体RNA编辑位点高精度预测方法,下载拟南芥、欧洲油菜和稻三个样本的线粒体全基因组序列,提取位点信息;融合烟草ATP合酶上的atp9,atp6,orf25,orfB,atp1五个目的基因的DNA序列和cDNA序列比对得到的编辑位点数据共同组成数据集;从全基因组中得到负样本;确定最优特征;针对最优特征,对训练集‑测试集按照9:1、8:2、7:3、6:4、5:5进行分类,基于高维特征快速非线性汰选方法对五种比例的训练集‑测试集中的训练集进行高维特征筛选;基于高维特征筛选后保留的有效特征,利用SVC分别对测试集和验证集进行独立预测,得到有效模型;确定最优模型;本发明适用于烟草线粒体RNA编辑位点预测,减少了预测的计算量,并保证了预测的高精度。
搜索关键词: 一种 烟草 线粒体 rna 编辑 高精度 预测 方法
【主权项】:
1.一种烟草线粒体RNA编辑位点高精度预测方法,其特征在于,包括以下步骤:1)从NCBI数据库中下载拟南芥、欧洲油菜和稻三个样本的线粒体全基因组序列保存为fasta格式,根据RNA编辑的最新注释,提取位点信息;融合烟草ATP合酶上的atp9,atp6,orf25,orfB,atp1五个目的基因的DNA序列和cDNA序列比对得到的编辑位点数据共同组成数据集;2)从三个样本的线粒体全基因组的fasta格式文件中根据注释信息提取正样本和参考REGAL中的负样本信息,从线粒体基因组中得到负样本;3)在正样本第一列添加y值1,负样本第一列添加y值0,将添加y值后的正、负样本组合在一起,再将组合好的样本全部随机打乱,从随机打乱后的样本数据中取60%作为训练集,剩余40%作为测试集,得到6:4的样本比例;同样的方法从随机打乱后的样本数据中得到剩余5:5、7:3、8:2和9:1四种比例;4)选用6:4比例的样本集,对下表中的七组特征进行SVC独立测试,确定最优特征;5)针对最优特征,对训练集‑测试集按照9:1、8:2、7:3、6:4、5:5进行分类,基于高维特征快速非线性汰选方法对五种比例的训练集‑测试集中的训练集进行高维特征筛选;6)基于高维特征筛选后保留的有效特征,利用SVC分别对测试集和验证集进行独立预测;所述验证集是指:由烟草线粒体ATP酶上5个亚基的编辑位点信息构建的36个新的正样本,从烟草线粒体上随机取30个以C为中心的501bp窗口长度的样本为新的负样本,对新的正样本和负样本分别添加y值组成验证集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南农业大学,未经湖南农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810468630.X/,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top