[发明专利]鉴别mRNA和lncRNA的有监督学习方法有效
申请号: | 201810449074.1 | 申请日: | 2018-05-11 |
公开(公告)号: | CN108595913B | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 文江辉;邓兵;柳叶舒;石雨;肖新平 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | G16B40/20 | 分类号: | G16B40/20;G06N3/08 |
代理公司: | 武汉开元知识产权代理有限公司 42104 | 代理人: | 潘杰;刘琳 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种鉴别mRNA和lncRNA的有监督学习方法,包括步骤:以Genecode数据库中人的mRNA和lncRNA数据为训练集和测试集,将转录本序列转化成k‑mer序列;统计每条序列中各种k‑mer在序列中的频数,然后进行归一化处理;将k‑mer频数构造成矩阵形式,作为卷积神经网络模型卷积层的输入;利用搭建的卷积神经网络训练Genecode数据库中人的mRNA和lncRNA,训练和测试mRNA和lncRNA,确定模型参数,用于准确预测人的lncRNA或mRNA。本发明根据mRNA和lncRNA的kmer特征区别,提出了一种基于卷积神经网络有监督学习kmer特征的区分lncRNA和mRNA方法,有效的整合了卷积神经网络的优势,采用序列的k‑mer作为模型输入,训练后的鉴别模型精确度达98%以上,为进一步分析lncRNA序列的生物学功能奠定了良好基础。 | ||
搜索关键词: | 鉴别 mrna lncrna 监督 学习方法 | ||
【主权项】:
1.一种鉴别mRNA和lncRNA的有监督学习方法,其特征在于:包括如下步骤:1)从Genecode数据库中下载人的mRNA转录本数据和lncRNA转录本数据,选取符合长度要求的mRNA序列和lncRNA作为实验数据;2)将实验数据中每一条转录本序列样本转化为k‑mer序列,其中k为大于0的自然数;3)统计每条序列中每种k‑mer序列片段类型在该序列中的频数,然后进行归一化处理,求出每条序列中每种k‑mer序列在该k‑mers序列中所出现的频率,每条序列中k‑mers的频率之和为1;4)将k‑mers频率构造成矩阵形式,作为卷积神经网络模型卷积层的输入,然后分别通过卷积计算层、池化计算层和采用softmax函数作为激活函数的全连接层,搭建卷积神经网络模型框架;5)将实验数据分为模型训练样本数据集和模型测试样本数据集,利用模型训练样本数据集对卷积神经网络模型进行训练,得到分类模型;6)通过调整卷积神经网络模型的参数和k值,优化卷积神经网络模型,并利用模型测试样本数据集验证分类准确率,从而准确预测mRNA和lncRNA序列。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810449074.1/,转载请声明来源钻瓜专利网。