[发明专利]一种基于多尺度交叉注意力模型的RNA修饰位点预测方法在审
申请号: | 202211260393.0 | 申请日: | 2022-10-14 |
公开(公告)号: | CN115662508A | 公开(公告)日: | 2023-01-31 |
发明(设计)人: | 王鸿磊;张林;刘辉;张雪松;王栋;曾文亮 | 申请(专利权)人: | 徐州工业职业技术学院 |
主分类号: | G16B20/30 | 分类号: | G16B20/30;G06N3/08;G06N3/0499;G06F18/241 |
代理公司: | 西安铭泽知识产权代理事务所(普通合伙) 61223 | 代理人: | 韩晓娟 |
地址: | 221000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 尺度 交叉 注意力 模型 rna 修饰 预测 方法 | ||
本发明公开了一种基于多尺度交叉注意力模型的RNA修饰位点预测方法,涉及生物信息学RNA转录后修饰位点预测领域。包括:对包含N1‑甲基腺苷修饰位点的RNA碱基序列为正样本和不包含N1‑甲基腺苷修饰位点的RNA碱基序列为负样本,每个样本取3组不同尺度的RNA碱基序列作为输入序列;对3组输入序列均进行词嵌入编码和位置编码;将编码后的3组序列输入编码模块中,编码模块包括一个多头交叉注意力层和一个前向反馈全连接层,对输出结果求平均值,后经过全连接神经网络层和两分类器,预测人类物种RNA碱基序列中是否包含N1‑甲基腺苷修饰位点。本发明能够描述复杂方面词的上下文关系,加强文本中重要词汇对甲基化位点预测的影响,从而能够准确预测甲基化位点。
技术领域
本发明涉及生物信息学RNA转录后修饰位点预测领域,特别涉及一种基于多尺度交叉注意力模型的RNA中N1-甲基腺苷修饰位点预测方法。
背景技术
研究表明,通过转录后RNA修饰的表观转录组调控对于所有种类的RNA都是必不可少的,所以,准确识别RNA修饰对于理解其目的和调控机制至关重要。
传统的RNA修饰位点识别实验方法相对复杂、费时、费力。机器学习方法已经应用于RNA序列特征提取和分类的计算过程中,可以更有效地补充实验方法。近年来,卷积神经网络(Convolutional Neural Networks,CNN)和长时记忆(Long short-term memory,LSTM)由于在表征学习方面的强大功能,在修饰位点预测方面取得了显著的成就。
然而,卷积神经网络(CNN)可以从空间数据中学习局部响应,但不能学习序列相关性;长时记忆(LSTM)专门用于序列建模,可以同时访问上下文表示,但与CNN相比缺乏空间数据提取。由于以上原因,使用自然语言处理(Natural Language Processing,NLP)、其他深度学习(DeepLearn,DL)构建预测框架的动力十分强烈。
现有技术中,在构建预测框架时,使用注意力机制虽然可以关注到句子上下文的重要特征,但是单个注意力序列之间缺乏信息交互,难以描述复杂方面词的上下文关系;且没有充分联系上下文,加强文本中重要词汇对甲基化位点预测的影响。
发明内容
基于此,有必要针对上述技术问题,提供一种基于多尺度交叉注意力模型的RNA修饰位点预测方法。
本发明实施例提供一种基于多尺度交叉注意力模型的RNA修饰位点预测方法,包括:
对包含N1-甲基腺苷修饰位点的RNA碱基序列为正样本和不包含N1-甲基腺苷修饰位点的RNA碱基序列为负样本,每个样本取3组不同尺度的RNA碱基序列作为输入序列;
对3组输入序列均依次进行word2vec词嵌入编码和位置编码;
将编码后的3组序列编码模块中,获得特征序列;其中,所述编码模块包括:多个依次串联的编码块;所述编码块包括:一个多头交叉注意力层和一个前向反馈全连接层,且每层之间通过残差连接和标准化层;
将经过编码模块的输出结果求平均值,后经过全连接神经网络层和两分类器,预测人类物种RNA碱基序列中是否包含N1-甲基腺苷修饰位点。
进一步地,构建数据集;所述数据集包括:RNA碱基序列为正样本、RNA碱基序列为负样本和类别标签,且样本长度是41bp;输入序列设为序列a、序列b和序列c,其分别是长度为xbp、ybp、zbp不同尺度序列组成的集合;
所述数据集的训练集与测试集表示为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于徐州工业职业技术学院,未经徐州工业职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211260393.0/2.html,转载请声明来源钻瓜专利网。