[发明专利]一种基于序列和形状信息深度融合的模体挖掘方法有效
申请号: | 202110509316.3 | 申请日: | 2021-05-11 |
公开(公告)号: | CN113096733B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 黄德双;张寅东 | 申请(专利权)人: | 同济大学 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G06N3/08;G06N3/04 |
代理公司: | 北京东方盛凡知识产权代理事务所(普通合伙) 11562 | 代理人: | 张雪 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 序列 形状 信息 深度 融合 挖掘 方法 | ||
本发明涉及一种基于序列和形状信息深度融合的模体挖掘方法,包括:S1、构建深度嵌入卷积神经网络模型,并对DNA序列和形状信息进行空间对齐混合,作为所述神经网络模型的输入;S2、对所述深度嵌入卷积神经网络模型进行训练,得到模体绑定强度预测值;S3、基于预测值与实际绑定强度之间的回归系数R2对所述构建的深度嵌入卷积神经网络模型性能进行评估。本发明方法利用了卷积神经网络在特征提取方面的优势,实现了序列和形状特征的深度融合。
技术领域
本发明涉及计算机识别与深度学习技术领域,特别是涉及一种基 于序列和形状信息深度融合的模体挖掘方法。
背景技术
转录因子绑定行为对于调控基因表达有着重要作用,识别转录因 子绑定位点对于理解绑定机制和相关的细胞活动有着重要意义。然而 ,转录因子绑定是个精密的生物物理过程,影响因素多,建模难度大 。为此,科研人员开发了多种类的绑定位点预测模型。位置权重矩阵 通过概率统计模型对转录因子绑定的序列特异性偏好进行建模,矩阵 中的每列元素值代表对应位置的四种核苷酸{A,C,G和T}的概率分布 ,是对绑定位点建模的一种简单有效的方式。然而,位置权重矩阵假 设绑定位点的核苷酸各自独立地对绑定预测的发生影响,忽略了邻近 核苷酸之间的关联。进一步的研究工作通过对核苷酸序列进行K-mer编码,整体考虑邻近的k个核苷酸,弥补核苷酸之间关联关系的缺失 ,在构造序列特征后送入机器学习模型进行分类。然而,这类传统方 法往往忽略了K-mer之间的序列关系,同时机器学习模型受到计算性 能和优化方法的限制,无法充分利用海量测序数据。
随着研究的深入,科研人员开始重视DNA序列之外其他生物物 理特性对转录因子绑定的影响,因此提出了一种基于序列和形状信息 深度融合的模体挖掘方法。
发明内容
本发明提出一种基于序列和形状信息深度融合的模体挖掘方法, 使用两个独立卷积层提取DNA序列和形状的局部模式特征,其中一 个卷积层处理DNA序列输入,另一个处理形状输入,在对序列和形状 特征数组进行对齐后设计一定的混合策略,实现DNA序列和形状信息 的空间对齐混合。
为实现上述目的,本发明提供了如下方案:
一种基于序列和形状信息深度融合的模体挖掘方法,包括以下步 骤:
S1、构建深度嵌入卷积神经网络模型,并对DNA序列和形状信息 进行空间对齐混合,作为所述神经网络模型的输入;
S2、对所述深度嵌入卷积神经网络模型进行训练,得到模体绑定 强度预测值;
S3、基于所述预测值与实际绑定强度之间的回归系数R2对所述 构建的深度嵌入卷积神经网络模型性能进行评估。
优选地,所述深度嵌入卷积神经网络模型中,包括两个独立的卷 积层,分别为第一卷积层和第二卷积层,所述第一卷积层用于处理DNA 序列的输入,所述第二卷积层用于处理形状信息的输入。
优选地,所述S1中,通过拼接模式和加和模式,对所述DNA序 列和形状信息进行空间对齐混合。
优选地,在所述拼接模式下,若输入的DNA序列形式不同,则命 名不同;在所述加和模式下,输入编码的形式不同,则命名也不同。
优选地,所述S2中,在训练过程中,通过Glorot均匀初始化策 略对所述深度嵌入卷积神经网络模型进行初始化,并使用Adam学习 器优化模型参数,基于网格搜索策略寻找最优值。
优选地,在所述深度嵌入卷积神经网络中增加丢失层,用于对抗 模型训练过程中的过拟合问题。
优选地,所述S3中,基于预测值与实际绑定强度之间的回归系 数R2对所述构建的深度嵌入卷积神经网络模型性能进行评估,并采 用五折交叉验证策略进行验证。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110509316.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于深度嵌入卷积神经网络的模体挖掘方法
- 下一篇:一种制备甲壳寡糖的方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置