[发明专利]一种基于多尺度交叉注意力模型的RNA修饰位点预测方法在审
申请号: | 202211260393.0 | 申请日: | 2022-10-14 |
公开(公告)号: | CN115662508A | 公开(公告)日: | 2023-01-31 |
发明(设计)人: | 王鸿磊;张林;刘辉;张雪松;王栋;曾文亮 | 申请(专利权)人: | 徐州工业职业技术学院 |
主分类号: | G16B20/30 | 分类号: | G16B20/30;G06N3/08;G06N3/0499;G06F18/241 |
代理公司: | 西安铭泽知识产权代理事务所(普通合伙) 61223 | 代理人: | 韩晓娟 |
地址: | 221000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 尺度 交叉 注意力 模型 rna 修饰 预测 方法 | ||
1.一种基于多尺度交叉注意力模型的RNA修饰位点预测方法,其特征在于,包括:
对包含N1-甲基腺苷修饰位点的RNA碱基序列为正样本和不包含N1-甲基腺苷修饰位点的RNA碱基序列为负样本,每个样本取3组不同尺度的RNA碱基序列作为输入序列;
对3组输入序列均依次进行word2vec词嵌入编码和位置编码;
将编码后的3组序列输入到编码模块中,获得特征矩阵;其中,所述编码模块包括:多个依次串联的编码块;所述编码块包括:一个多头交叉注意力层和一个前向反馈全连接层,且每层之间通过残差连接和标准化层;
将经过编码模块的输出结果求平均值,后经过全连接神经网络层和两分类器,预测人类物种RNA碱基序列中是否包含N1-甲基腺苷修饰位点。
2.如权利要求1所述的基于多尺度交叉注意力模型的RNA修饰位点预测方法,其特征在于,还包括:构建数据集;
所述数据集包括:RNA碱基序列为正样本、RNA碱基序列为负样本和类别标签,且样本长度是41bp;输入序列设为序列a、序列b和序列c,其分别是长度为xbp、ybp、zbp不同尺度序列组成的集合;
所述数据集的训练集与测试集表示为:
其中,yn∈{0,1},分别表示样本长度为xbp、ybp、zbp不同尺度的辅助序列,辅助序列是以序列中心为中心点左右截取不同尺度的序列。
3.如权利要求2所述的基于多尺度交叉注意力模型的RNA修饰位点预测方法,其特征在于,所述每个样本取3组不同尺度的RNA碱基序列作为输入序列,包括:
数据集中样本序列是以共同基序A为中心,前后取值窗口为大小不同的bp,以x1bp、y1bp、z1bp共3个不同为例,即每个m1A正样本/负样本由xbp、ybp、zbp组成,当样本序列在某些位置不存在碱基时,缺少碱基使用‘-’字符填充;此处设x1=10,y1=15,z1=20,因此,x=21,y=31,z=41。
4.如权利要求1所述的基于多尺度交叉注意力模型的RNA修饰位点预测方法,其特征在于,所述word2vec词嵌入编码,具体包括:
利用大小为3个碱基的窗口,每次滑动1个碱基的形式,在每条样本序列上滑动,直到窗口碰到序列最末端时滑动结束,由此会获得105种不同的子序列和唯一的整数序列组成的字典;
针对不同尺度的样本序列,分别使用word2vec的CBOW模型编码RNA序列;对于41个碱基的样本,利用大小为3个碱基的窗口,每次滑动1个碱基的形式,在每条样本序列上滑动,直到窗口碰到序列最末端时滑动结束,由此,得到39个由3个碱基组成的子序列,使用word2vec的CBOW模型编码RNA序列,因此,每个子序列被转换成表征语义的词向量,再利用得到的词向量将RNA碱基序列中长度为41bp转换成39*100的矩阵,其中,39为预处理时词的个数,100为词向量维度。
5.如权利要求1所述的基于多视角分类模型多尺度交叉注意力模型的RNA修饰位点预测方法,其特征在于,所述编码模块包括:3个依次串联的编码块。
6.如权利要求1所述的基于多尺度交叉注意力模型的RNA修饰位点预测方法,其特征在于,所述编码模块包括:
其输出的维度dmodel=64,多头数h=8,前向反馈网络维度d_ff=256,暂时从网络中丢弃的概率为dropout=0.1。
7.如权利要求1所述的基于多尺度交叉注意力模型的RNA修饰位点预测方法,其特征在于,所述多尺度交叉注意力层,包括:
序列a进行自注意力计算的同时,序列a分别与序列b、序列c进行交叉注意力计算,交叉注意力是指第一个序列用作查询query输入,另一个序列用做键key输入和值value输入,进行注意力计算;将3种注意力的输出结果加起来作为交叉注意力层的输出,实现多尺度交叉注意力层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于徐州工业职业技术学院,未经徐州工业职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211260393.0/1.html,转载请声明来源钻瓜专利网。