[发明专利]鉴别mRNA和lncRNA的有监督学习方法有效
申请号: | 201810449074.1 | 申请日: | 2018-05-11 |
公开(公告)号: | CN108595913B | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 文江辉;邓兵;柳叶舒;石雨;肖新平 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | G16B40/20 | 分类号: | G16B40/20;G06N3/08 |
代理公司: | 武汉开元知识产权代理有限公司 42104 | 代理人: | 潘杰;刘琳 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 鉴别 mrna lncrna 监督 学习方法 | ||
1.一种鉴别mRNA和lncRNA的有监督学习方法,其特征在于:包括如下步骤:
1)从Genecode数据库中下载人的mRNA转录本数据和lncRNA转录本数据,选取符合长度要求的mRNA序列和lncRNA作为实验数据;
2)将实验数据中每一条转录本序列样本转化为k-mer序列,其中k为大于0的自然数;
3)统计每条序列中每种k-mer序列片段类型在该序列中的频数,然后进行归一化处理,求出每条序列中每种k-mer序列在该k-mers序列中所出现的频率,每条序列中k-mers的频率之和为1;
4)将k-mers频率构造成矩阵形式,作为卷积神经网络模型卷积层的输入,然后分别通过卷积计算层、池化计算层和采用softmax函数作为激活函数的全连接层,搭建卷积神经网络模型框架;
5)将实验数据分为模型训练样本数据集和模型测试样本数据集,利用模型训练样本数据集对卷积神经网络模型进行训练,得到分类模型;
6)通过调整卷积神经网络模型的参数和k值,优化卷积神经网络模型,并利用模型测试样本数据集验证分类准确率,从而准确预测mRNA和lncRNA序列。
2.根据权利要求1所述的鉴别mRNA和lncRNA的有监督学习方法,其特征在于:所述步骤1)中选取符合长度要求的mRNA序列和lncRNA作为实验数据的具体步骤为:从下载人的mRNA转录本数据和lncRNA转录本数据中随机选取2000~10000条序列对序列长度进行分析,确定lncRNA和mRNA的长度范围,然后从下载人的mRNA转录本数据和lncRNA转录本数据中符合lncRNA和mRNA的长度范围的数据中随机选取mRNA序列和lncRNA作为实验数据。
3.根据权利要求1所述的鉴别mRNA和lncRNA的有监督学习方法,其特征在于:所述步骤4)中卷积神经网络模型的第一层采用32个大小为3*3的卷积核,选取Relu激活函数,以0进行周边填充的方式保证卷积计算前后矩阵的大小不变;第二层采用64个大小为3*3的卷积核,选取Relu激活函数;第三层是最大池化层,池化区域大小是2*2,在池化层与全连接层之间以0.25的概率Dropout部分神经元的连接;最后一层是全连接层,采用128个神经元,与池化层全连接后采取以0.5的概率对全连接层与输出层神经元之间的连接进行Dropout,最后利用softmax函数作为激活函数得到分类结果。
4.根据权利要求1所述的鉴别mRNA和lncRNA的有监督学习方法,其特征在于:所述步骤5)中模型训练样本数据集的数量不少于10000条,模型测试样本数据集的数量不少于1000条。
5.根据权利要求1所述的鉴别mRNA和lncRNA的有监督学习方法,其特征在于:所述步骤2)中k的取值为1,2,3。
6.根据权利要求2所述的鉴别mRNA和lncRNA的有监督学习方法,其特征在于:所述lncRNA和mRNA的长度范围分别为250nt~3500nt和200nt~4000nt。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810449074.1/1.html,转载请声明来源钻瓜专利网。