[发明专利]一种基于多示例学习的IRES序列搜寻方法有效
申请号: | 201910548286.X | 申请日: | 2019-06-24 |
公开(公告)号: | CN110364223B | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 颜成钢;王廷宇;赵崇宇;万斌;孙垚棋;张继勇;张勇东;蒋云良 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G16B30/00 | 分类号: | G16B30/00 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 示例 学习 ires 序列 搜寻 方法 | ||
本发明公开冷链一种基于多示例学习的IRES序列搜寻方法。本发明以经过实验验证过的含IRES的序列为正样本,未含IRES的序列为负样本,以多示例学习为框架,通过对正负样本组成的数据集进行训练,获得一个有效的IRES预测估计模型。本发明可以快速高效的判断细胞mRNA中是否存在IRES序列以及存在的大致位置。本发明针对mRNA中IRES序列验证的生物实验较为复杂且人力、物力成本消耗过高的问题。本发明可以对mRNA序列是否存在IRES序列进行快速判断,并预估其大概所在位置,从而可使相关科研工作者优先对大概率存在IRES序列的mRNA片段进行生物实验验证,以提高工作效率,减少工作强度。
技术领域
本发明涉及生物信息学领域,尤其一种基于多示例学习的IRES序列搜寻方法。涉及mRNA中IRES序列的搜寻方法。
背景技术
在真核细胞中,蛋白质在翻译起始,一般需要依靠mRNA中的5’帽结构来介导核糖体与mRNA的结合;然而,对于没有5’帽结构的病毒,仍可以通过RNA中非编码区的一段较短的序列,来介导核糖体与mRNA的结合,这段较短的非编码mRNA序列被称为内部核糖体进入位点序列,即IRES序列。
研究发现,在一些真核细胞mRNA的5’UTR区也存在IRES序列,且随着研究的深入,越来越多的真核细胞生物,如:哺乳动物、植物,被证实在其mRNA中存在IRES序列,且IRES序列在细胞的应激反应、自我凋亡、癌变、监控、进化等方面,扮演着重要的角色。
以人类的mRNA为例,最新研究报告表明,细胞中有超过10%的mRNA的5’UTR区含有可介导核糖体与mRNA结合的IRES序列,然而,真正通过实验验证得到证实的却少之又少。生物学上通常采用高通量双顺反子分析实验来对细胞中的IRES进行检测,但这种实验操作步骤复杂,非常消耗时间和人力。因此,借助计算机计算对细胞mRNA中的IRES序列是否存在以及存在位置进行定位,以此降低生物验证实验的复杂度,显得尤为必要。
发明内容
本发明提出一种基于多示例学习的IRES序列搜寻方法。该方法可以快速高效的判断细胞mRNA中是否存在IRES序列以及存在的大致位置。
本发明以经过实验验证过的含IRES的序列为正样本,未含IRES的序列为负样本,以多示例学习为框架,通过对正负样本组成的数据集进行训练,获得一个有效的IRES预测估计模型。
已有的IRES预测器,在训练过程中,所使用的数据集大多以明确长度和碱基的IRES序列为正样本,这使得数据集的获取较为困难,而本发明的方法,以多示例学习为框架,仅需要知道一段mRNA序列中含有IRES序列,以及其大体长度,便可用来作为数据集中的正样本,这大大减少了数据集收集的难度。
IRES序列实则为由腺嘌呤(A)、尿嘧啶(U)、胞嘧啶(C)、鸟嘌呤(G)四种碱基排列组合构成,在利用计算机对其进行处理时,需先对序列进行编码,传统的编码方式多为“one-hot”编码或“k-mer”编码。本发明采用“k-mer”编码的改进编码方式:“ksnpf”编码,此种编码方式可大大提高模型的泛化能力。
一种基于多示例学习的IRES搜寻方法,该方法具体包括以下步骤:
步骤1:将数据集中的每一条长度为L的碱基序列(包括正负样本)以IRES的可能长度K为基准进行步进的方式分割,每次移动一步,最终每一条碱基序列都被分割成L-K+1条碱基短序列。
步骤2:将数据集中每一条碱基序列所分割成的多条短序列集合称为一个包,包中的每一条短序列称为一个示例,对所有正样本分割而成的示例,不管是否含有IRES序列,都加上标签“1”,其所构成的包,称为正包;对所有负样本分割而成的示例加上标签“0”,其所构成的包,称为负包。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910548286.X/2.html,转载请声明来源钻瓜专利网。