[发明专利]鉴别mRNA和lncRNA的有监督学习方法有效

专利信息
申请号: 201810449074.1 申请日: 2018-05-11
公开(公告)号: CN108595913B 公开(公告)日: 2021-07-06
发明(设计)人: 文江辉;邓兵;柳叶舒;石雨;肖新平 申请(专利权)人: 武汉理工大学
主分类号: G16B40/20 分类号: G16B40/20;G06N3/08
代理公司: 武汉开元知识产权代理有限公司 42104 代理人: 潘杰;刘琳
地址: 430070 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种鉴别mRNA和lncRNA的有监督学习方法,包括步骤:以Genecode数据库中人的mRNA和lncRNA数据为训练集和测试集,将转录本序列转化成k‑mer序列;统计每条序列中各种k‑mer在序列中的频数,然后进行归一化处理;将k‑mer频数构造成矩阵形式,作为卷积神经网络模型卷积层的输入;利用搭建的卷积神经网络训练Genecode数据库中人的mRNA和lncRNA,训练和测试mRNA和lncRNA,确定模型参数,用于准确预测人的lncRNA或mRNA。本发明根据mRNA和lncRNA的kmer特征区别,提出了一种基于卷积神经网络有监督学习kmer特征的区分lncRNA和mRNA方法,有效的整合了卷积神经网络的优势,采用序列的k‑mer作为模型输入,训练后的鉴别模型精确度达98%以上,为进一步分析lncRNA序列的生物学功能奠定了良好基础。
搜索关键词: 鉴别 mrna lncrna 监督 学习方法
【主权项】:
1.一种鉴别mRNA和lncRNA的有监督学习方法,其特征在于:包括如下步骤:1)从Genecode数据库中下载人的mRNA转录本数据和lncRNA转录本数据,选取符合长度要求的mRNA序列和lncRNA作为实验数据;2)将实验数据中每一条转录本序列样本转化为k‑mer序列,其中k为大于0的自然数;3)统计每条序列中每种k‑mer序列片段类型在该序列中的频数,然后进行归一化处理,求出每条序列中每种k‑mer序列在该k‑mers序列中所出现的频率,每条序列中k‑mers的频率之和为1;4)将k‑mers频率构造成矩阵形式,作为卷积神经网络模型卷积层的输入,然后分别通过卷积计算层、池化计算层和采用softmax函数作为激活函数的全连接层,搭建卷积神经网络模型框架;5)将实验数据分为模型训练样本数据集和模型测试样本数据集,利用模型训练样本数据集对卷积神经网络模型进行训练,得到分类模型;6)通过调整卷积神经网络模型的参数和k值,优化卷积神经网络模型,并利用模型测试样本数据集验证分类准确率,从而准确预测mRNA和lncRNA序列。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810449074.1/,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top