[发明专利]一种RNA序列中M5C位点的识别预测方法及系统在审
申请号: | 202010832292.0 | 申请日: | 2020-08-18 |
公开(公告)号: | CN111951889A | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 祝小雷;周巍巍;王红;刘宇峰;陈潇 | 申请(专利权)人: | 安徽农业大学 |
主分类号: | G16B20/30 | 分类号: | G16B20/30;G06N20/10;G06K9/62;G06Q10/04 |
代理公司: | 合肥昊晟德专利代理事务所(普通合伙) 34153 | 代理人: | 王林 |
地址: | 230000 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 rna 序列 m5c 识别 预测 方法 系统 | ||
1.一种RNA序列中M5C位点的识别预测方法,其特征在于,包括以下步骤:
S1:构建基准数据集
建立基准数据集,将基准数据集划分为两个派生数据集,分别为训练集与测试集;
S2:利用特征表示RNA片段
利用KNF、KSNPF和pseDNC三个特征将基准数据集的RNA片段编码为特征向量;
S3:对特征进行优化选择
利用NSGAII方法对步骤S2中的特征向量进行优化选择;
S4:构建预测模型
利用SVM作为学习器基于特征向量进行训练,建立预测模型;
S5:利用模型进行预测
利用步骤S4中的预测模型对基准数据集中的RNA片段样本上M5C位点进行预测。
2.根据权利要求1所述的一种RNA序列中M5C位点的识别预测方法,其特征在于:在所述步骤S1中,基准数据集的生成过程如下:
S11:通过GEO数据库中ID为GSE90963的记录获取高阈值的M5C位点信息;
S12:根据步骤S11中高阈值M5C位点在基因组中的位置信息,截取人类基因转录组中位于其两侧各20个碱基的RNA片段构成正样本,所有的正样本构成的数据集被命名为P1;
S13:排除GSE90963中记录的所有可能的M5C位点,根据基因转录组中其余的C位点及两侧各20个碱基的RNA片段构成负样本,将该组片段被命名为N1;
S14:使用CD-HIT去除P1中的冗余序列,即生成含有186例阳性样本的P2;使用CD-HIT去除N1中的冗余序列并从中随机选择186例阴性样本得到N2;
S15:将各含有186例样本的P2和N2合并得到基准数据集。
3.根据权利要求2所述的一种RNA序列中M5C位点的识别预测方法,其特征在于:在所述步骤S14中,利用CD-HIT去除P1和N1中的冗余序列,截断值分别为0.7。
4.根据权利要求1所述的一种RNA序列中M5C位点的识别预测方法,其特征在于:在所述步骤S1中,训练集包括基准数据集的正样本和负样本中按比例各选取的149个RNA片段,样本剩余部分作为测试集。
5.根据权利要求1所述的一种RNA序列中M5C位点的识别预测方法,其特征在于:在所述步骤S1中,所有数据集中RNA片段的长度均为41个碱基,将每个中心碱基处有一个潜在M5C位点的RNA片段表达如下:
Rξ(C)=N-ξN-(ξ-1)…N-1CN1…N+(ξ-1)Nξ
其中,N-ξ代表中心胞嘧啶上游的第ξ个核苷酸,而N+ξ代表中心胞嘧啶下游第ξ个核苷酸;
将上式简化如下:
R20(C)=N1N2…N20CN22…N40N41
其中,Ni(i=1,2,…20,21…41)表示RNA片段的第i位的核苷酸,为RNA中4个核苷酸碱基中的任意一个,即:
Ni∈{A,C,G,U}
其中,A表示腺嘌呤;C表示胞嘧啶;G表示鸟嘌呤;U表示尿嘧啶。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽农业大学,未经安徽农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010832292.0/1.html,转载请声明来源钻瓜专利网。