[发明专利]一种RNA序列中M5C位点的识别预测方法及系统在审

专利信息
申请号: 202010832292.0 申请日: 2020-08-18
公开(公告)号: CN111951889A 公开(公告)日: 2020-11-17
发明(设计)人: 祝小雷;周巍巍;王红;刘宇峰;陈潇 申请(专利权)人: 安徽农业大学
主分类号: G16B20/30 分类号: G16B20/30;G06N20/10;G06K9/62;G06Q10/04
代理公司: 合肥昊晟德专利代理事务所(普通合伙) 34153 代理人: 王林
地址: 230000 *** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 rna 序列 m5c 识别 预测 方法 系统
【权利要求书】:

1.一种RNA序列中M5C位点的识别预测方法,其特征在于,包括以下步骤:

S1:构建基准数据集

建立基准数据集,将基准数据集划分为两个派生数据集,分别为训练集与测试集;

S2:利用特征表示RNA片段

利用KNF、KSNPF和pseDNC三个特征将基准数据集的RNA片段编码为特征向量;

S3:对特征进行优化选择

利用NSGAII方法对步骤S2中的特征向量进行优化选择;

S4:构建预测模型

利用SVM作为学习器基于特征向量进行训练,建立预测模型;

S5:利用模型进行预测

利用步骤S4中的预测模型对基准数据集中的RNA片段样本上M5C位点进行预测。

2.根据权利要求1所述的一种RNA序列中M5C位点的识别预测方法,其特征在于:在所述步骤S1中,基准数据集的生成过程如下:

S11:通过GEO数据库中ID为GSE90963的记录获取高阈值的M5C位点信息;

S12:根据步骤S11中高阈值M5C位点在基因组中的位置信息,截取人类基因转录组中位于其两侧各20个碱基的RNA片段构成正样本,所有的正样本构成的数据集被命名为P1;

S13:排除GSE90963中记录的所有可能的M5C位点,根据基因转录组中其余的C位点及两侧各20个碱基的RNA片段构成负样本,将该组片段被命名为N1;

S14:使用CD-HIT去除P1中的冗余序列,即生成含有186例阳性样本的P2;使用CD-HIT去除N1中的冗余序列并从中随机选择186例阴性样本得到N2;

S15:将各含有186例样本的P2和N2合并得到基准数据集。

3.根据权利要求2所述的一种RNA序列中M5C位点的识别预测方法,其特征在于:在所述步骤S14中,利用CD-HIT去除P1和N1中的冗余序列,截断值分别为0.7。

4.根据权利要求1所述的一种RNA序列中M5C位点的识别预测方法,其特征在于:在所述步骤S1中,训练集包括基准数据集的正样本和负样本中按比例各选取的149个RNA片段,样本剩余部分作为测试集。

5.根据权利要求1所述的一种RNA序列中M5C位点的识别预测方法,其特征在于:在所述步骤S1中,所有数据集中RNA片段的长度均为41个碱基,将每个中心碱基处有一个潜在M5C位点的RNA片段表达如下:

Rξ(C)=NN-(ξ-1)…N-1CN1…N+(ξ-1)Nξ

其中,N代表中心胞嘧啶上游的第ξ个核苷酸,而N代表中心胞嘧啶下游第ξ个核苷酸;

将上式简化如下:

R20(C)=N1N2…N20CN22…N40N41

其中,Ni(i=1,2,…20,21…41)表示RNA片段的第i位的核苷酸,为RNA中4个核苷酸碱基中的任意一个,即:

Ni∈{A,C,G,U}

其中,A表示腺嘌呤;C表示胞嘧啶;G表示鸟嘌呤;U表示尿嘧啶。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽农业大学,未经安徽农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010832292.0/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top