[发明专利]基于深度卷积自动编码器的转录因子结合位点预测的方法有效
申请号: | 202010115572.X | 申请日: | 2020-02-25 |
公开(公告)号: | CN111312329B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 张永清;乔少杰;郜东瑞;曾圆麒;陈庆园;卢荣钊;林志宇 | 申请(专利权)人: | 成都信息工程大学 |
主分类号: | G16B15/30 | 分类号: | G16B15/30;G16B30/00;G16B40/00;G06N3/0464;G06N3/045;G06N3/0442 |
代理公司: | 成都正德明志知识产权代理有限公司 51360 | 代理人: | 陈瑶 |
地址: | 610225 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 卷积 自动 编码器 转录 因子 结合 预测 方法 | ||
1.基于深度卷积自动编码器的转录因子结合位点预测的方法,其特征在于,包括:
S1、通过染色质免疫共沉淀技术特异性地富集目的蛋白结合的 DNA片段,从而获得原始数据集;
S2、对原始数据集进行预处理,得到训练数据集;
S3、将训练数据集输入卷积自动编码器进行训练;自动编码器由神经网络预先训练以确定初始值,神经网络模型配置过程,包括以下步骤:
1)根据步骤S2的预处理获取对应的第一构建参数,并将第一构件参数封装为统一的接口参数,所述第一构件参数为自各数据样例所提取的神经网络算法代码中的变量;
2)将经步骤S2的预处理得到的数据集所需的相关代码封装于对应的构件中,将所述代码中的变量作为所述构件的第二构件参数进行处理;所述第二构件参数包含有所述第一构件参数;
3)基于所设置的参数构建生成神经网络的层数,从而完成模型配置过程;
S4、根据训练完成的卷积自动编码器进行结合位点识别;
步骤S2所述预处理具体为:
A1、对原始数据集进行筛选;使用四种不同的呼叫峰值工具通过统一的管道对原始数据集进行了重新处理,从每个数据集的4个峰值集合中,迭代地排除具有低S的那个,直到数据集中的大和小S之间的比率小于或等于2,该数据集如果仅剩下一个峰值集,则删除整个数据集;S表示轻尾的经验权重;
A2、去除经步骤A1处理后样本数不超过5000个的数据集;
A3、通过设置序列长度,从经步骤A2处理后的数据集中选取,获得定长的DNA序列的有效数据;
步骤A3具体包括以下分步骤:
A31、对经步骤A2筛选出的DNA序列制作标签,并且将数据集分为两份,并对其中一份通过打乱序列生成对立样本;另一份映射到D维空间;
A32、利用单热编码将经步骤A31处理后DNA序列进行编码;给定长度为L的DNA序列s =(s_1,s_2,…,s_L)和固定的motif扫描仪长度m;
A33、通过等式得到编码的矩阵S,矩阵S的列对应于A,C,G或T的单热矢量,矩阵S的列其由[1, 0, 0, 0]T,[0, 1, 0, 0]T,[0, 0, 1, 0]T和 [0, 0, 0, 1]T表示。
2.根据权利要求1所述的基于深度卷积自动编码器的转录因子结合位点预测的方法,其特征在于,步骤S3具体为:
S31、将经步骤S2处理后的训练集输入无监督卷积自动编码器进行训练;
S32、将训练后的无监督卷积自动编码器的过滤器和池化窗口的参数导入有监督卷积自动编码器;
S33、将经步骤S2处理后的训练集输入有监督卷积自动编码器进行训练。
3.根据权利要求2所述的基于深度卷积自动编码器的转录因子结合位点预测的方法,其特征在于,步骤S33所述有监督卷积自编码器在卷积层的最大合并输出之后,使用完全连接的高速公路网络替换原有的MLP层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学,未经成都信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010115572.X/1.html,转载请声明来源钻瓜专利网。