[发明专利]mRNA亚细胞定位模型训练方法、定位方法及可读存储介质在审
申请号: | 202111138369.5 | 申请日: | 2021-09-27 |
公开(公告)号: | CN113837293A | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 邹权;李静;杜军平 | 申请(专利权)人: | 电子科技大学长三角研究院(衢州) |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08;G16B30/00 |
代理公司: | 成都创新引擎知识产权代理有限公司 51249 | 代理人: | 林庆华 |
地址: | 324003 浙江省衢*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | mrna 细胞 定位 模型 训练 方法 可读 存储 介质 | ||
本发明提供了一种mRNA亚细胞定位模型的训练方法包括以下步骤:获取mRNA亚细胞位置序列样本集;根据多种特征提取算法对mRNA亚细胞位置序列样本集进行特征提取,利用基分类器分别对特征识别,并对基分类器一层以上集成,再根据特征提取算法和集成分类器,得到目标mRNA亚细胞定位模型。本发明通过对多个分类器集成学习训练,不但可以提高训练的效率,使得模型在训练过程更容易得到全局最优解,从而得到训练完成后的目标模型会有更优秀的预测能力和泛化能力。
技术领域
本发明属于计算机技术领域,具体涉及一种mRNA亚细胞定位模型训练方法、定位方法及可读存储介质。
背景技术
目前,RNA的亚细胞定位被认为是单细胞生物、动植物组织和动物胚胎发育过程中细胞极化的重要机制。mRNA转录本的定位已被证实能够对基因表达和蛋白质转录进行空间定位。大约80%的转录本不对称地分布在人类细胞中,转录本的错误定位可能导致疾病,如脊髓性肌肉萎缩、阿尔茨海默病和癌症。近年来,基于机器学习的亚细胞定位算法取得了长足的进展。mRNA定位与蛋白质翻译的定位相对应,有助于蛋白质功能的研究。然而,目前对真核mRNA亚细胞定位的研究显示出重要的局限性,往往基于单序列信息的提取,并且预测能力和泛化能力不足。为了更好地实现真核mRNA的亚细胞定位,必须建立并训练出性能更优更好、功能更全面的模型。
发明内容
本发明针对上述现有技术中存在的“基于单序列信息的提取,并且预测能力和泛化能力不足”的问题,提供一种mRNA亚细胞定位模型训练方法、定位方法及可读存储介质。
根据本发明的实施例,本发明提供了一种mRNA亚细胞定位模型的训练方法,包括以下步骤:
S1获取mRNA亚细胞位置序列样本集;
S2根据多种特征提取算法对mRNA亚细胞位置序列样本集进行特征提取,得到多个特征集;
S3根据多个基分类器分别对多个所述特征集进行识别,并对基分类器进行至少一层集成,得到集成分类器;
S4根据所述多种特征提取算法和所述集成分类器,得到目标mRNA亚细胞定位模型。
可选地,步骤S1,包括以下步骤:
S11获取mRNA亚细胞位置序列数据作为阳性数据和阴性数据;
S12对阳性数据和阴性数据进行数据处理,得到mRNA亚细胞位置序列样本集。
可选地,步骤S2中,多种特征提取算法包括:电子-离子相互作用三核苷酸算法、三核苷酸组成算法、二核苷酸组成算法、k-spaced核酸对组成算法、平行相关伪二核苷酸组成算法、平行相关伪三核苷酸组成算法,序列相关伪二核苷酸组成算法、序列相关伪三核苷酸组成算法和基于二核苷酸的自交叉协方差算法任意三种或三种以上。
可选地,步骤S3,包括以下步骤:
S31根据所述特征集的亚细胞位置的数据特点和时间复杂度匹配相应的基分类器进行识别;
S32对基分类器进行至少一层集成,得到目标权重参数;
S33根据基分类器和目标权重参数,得到集成分类器。
可选地,所述基分类器包括LightGBM算法。
可选地,步骤S3为:根据多个基分类器分别对多个所述特征集进行识别,并对基分类器进行两层集成,得到集成分类器的目标权重参数。
可选地,步骤S3,包括以下步骤:
S31根据多个基分类器分别对多个所述特征集进行识别,得到预测结果;
S32根据基分类器对应的所述特征集,对基分类器进行分组,得到基分类器组;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学长三角研究院(衢州),未经电子科技大学长三角研究院(衢州)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111138369.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种植物中sgRNA活性预测方法及装置
- 下一篇:一种安全事件显示方法和装置