[发明专利]一种基于模糊k-mer使用率鉴定lncRNA的方法有效
申请号: | 202010010135.1 | 申请日: | 2020-01-06 |
公开(公告)号: | CN111223522B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 李爱民;费蓉;刘雅君;周红芳;刘光明;王磊;黑新宏;周中银 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 张皎 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模糊 mer 使用率 鉴定 lncrna 方法 | ||
本发明公开了一种基于模糊k‑mer使用率鉴定lncRNA的方法,具体包括如下步骤:步骤1,对RNA序列数据进行预处理;步骤2,对传统k‑mer和模糊k‑mer进行定义,并计算传统k‑mer使用频率;步骤3,确定传统k‑mer与模糊k‑mer的对应关系;步骤4,求解传统k‑mer与模糊k‑mer对应关系矩阵cm;步骤5,用模糊k‑mer训练预测模型。本发明的实现将有助于从大规模的高通量测序数据中系统准确地鉴定各种物种、各种细胞中的长链非编码RNA。
技术领域
本发明属于鉴定长链非编码RNA(lncRNA)技术领域,涉及一种基于模糊k-mer使用率鉴定lncRNA的方法。
背景技术
在分子生物学领域,非编码RNA(non-coding RNAs)是当前研究热点之一。非编码中的microRNA(miRNA)和长链非编码RNA(long non-coding RNA,lncRNA)是研究的重中之重。microRNA的研究日趋成熟,科学家们对长链非编码RNA的研究正在如火如荼开展当中,长链非编码RNA有重要生物医学功能。
起初人们认为长链非编码RNA只不过是基因组转录时的副产物,只是“噪音”,不具有任何生物学功能。随着Xist、Hotair等非编码RNA基因的功能被逐步发现,人们发现长链非编码RNA不仅功能十分重要、数量还大大超过编码蛋白的基因。长链非编码RNA的功能主要表现在:转录干扰、调控基因表达、转录激活、X染色体失活、核内运输、基因组印记、染色质修饰等,与疾病的发生、发展、诊断、治疗都有密切联系。
鉴定长链非编码RNA是研究长链非编码RNA的必由之路,是一项十分重要的基础性前沿性工作。从原始的转录组生物学实验数据中鉴定长链非编码RNA并非易事,要联合使用多种数据和多个工具、经过多步的计算和分析才能确定下来。其中有一项十分关键的步骤,那就是评估转录本的编码能力。
《BMC bioinformatics》上发表了利用k-mer特征区分蛋白编码基因和长链非编码RNA基因的算法,取名为PLEK。该算法尤其适用于从大规模的de novo组装的转录组中鉴定长链非编码RNA。大量实验表明:当k增大时准确率随之提高,但是,与此同时计算量也会随k的增大而增加。为了在准确性和计算量之间取得平衡,最终选择k=5。另外,在计算k-mer过程中,随着k的增大,会产生稀疏矩阵现象,即计算出来的k-mer频率大部分为0。当转录本中存在SNP或者indel时会影响k-mer的计算。
鉴于以上问题,提出一种基于模糊k-mer使用率鉴定lncRNA的方法,模糊k-mer在k-mer使用频率的计算上具有较好的鲁棒性。
发明内容
本发明的目的是提供一种基于模糊k-mer使用率鉴定lncRNA的方法,该方法采用严格的过滤条件收集可靠的mRNA和lncRNA序列,令后续鉴定模型输出的结果更为可靠和可信,降低系统误差;采用模糊k-mer,降低计算复杂度。
本发明所采用的技术方案是,一种基于模糊k-mer使用率鉴定lncRNA的方法,具体包括如下步骤:
步骤1,对RNA序列数据进行预处理;
步骤2,对传统k-mer和模糊k-mer进行定义,并计算传统k-mer使用频率;
步骤3,确定传统k-mer与模糊k-mer的对应关系;
步骤4,求解传统k-mer与模糊k-mer对应关系矩阵cm;
步骤5,用模糊k-mer训练预测模型。
本发明的特点还在于,
步骤1的具体过程为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010010135.1/2.html,转载请声明来源钻瓜专利网。