[发明专利]基于图卷积网络和自注意力机制的DNA存储编码方法在审
申请号: | 202310220809.4 | 申请日: | 2023-03-09 |
公开(公告)号: | CN116206691A | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 张强;曹犇;王鹏飞 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G16B50/30 | 分类号: | G16B50/30;G16B40/00;G06F18/214;G06F18/24;G06N3/0464;G06N3/08 |
代理公司: | 辽宁鸿文知识产权代理有限公司 21102 | 代理人: | 王海波 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 图卷 网络 注意力 机制 dna 存储 编码 方法 | ||
1.基于图卷积网络和自注意力机制的DNA存储编码方法,其特征在于,该方法包括如下步骤:
步骤1:构建满足组合约束的DNA存储编码训练集
收集不同约束下DNA存储编码结果,并对DNA存储编码数据进行预处理,即将DNA存储编码间的关系和编码中的信息映射为图中节点和边,最终完成DNA存储编码训练集的构建;
步骤2:构建图卷积自注意力神经网络
搭建由多层卷积层和自注意力机制层组成的图卷积自注意力神经网络,结构依次为输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、自注意力层、第三卷积层、激活层和输出层;并将图卷积自注意力神经网络池化层设置平均池化方式,激活层使用非线性激活函数ReLU,在最后一层使用sigmoid函数;
步骤3:训练图卷积自注意力神经网络
将步骤1中构建的带有类别标签的满足组合约束的DNA存储编码训练集输入步骤2中构建的图卷积自注意力神经网络迭代更新网络参数,直至初步预训练的损失函数预测得到的类别标签与实际类别标签之间的差异值收敛为止,得到初步训练的图卷积自注意力神经网络模型;
步骤4:对不包含类别标签的DNA存储编码图进行节点分类
将一个不含类别标签的DNA编码图输入到步骤3中训练好的图卷积自注意力神经网络中,网络输出一个预测概率的特征向量,通过特征向量与阈值的比较,确定每一个节点是否属于DNA存储编码集合。
2.根据权利要求1所述的基于图卷积网络和自注意力机制的DNA存储编码方法,其特征在于,步骤1中训练集的构建步骤如下:
步骤1.1:进行不同约束下的所有情况DNA存储编码结果的收集,统计5种不同组合约束下的编码数据集,包括589651个阴性样本,70734个阳性样本;
步骤1.2:对数据进行分类和筛选,将长度小于5的DNA编码筛选掉;
步骤1.3:将五种不同组合约束的编码数据集分别命名为GNH_db、GNHN_db、GNHE_db、GNHS_db、GNE_db;
步骤1.4:对DNA存储编码数据进行预处理,即通过将DNA存储编码间的关系和编码中的信息映射为图中节点和边,构建DNA存储编码图,构建DNA存储编码训练集。
3.根据权利要求1或2所述的基于图卷积网络和自注意力机制的DNA存储编码方法,其特征在于,步骤2中图卷积层的分层卷积公式如下:
图卷积自注意力神经网络由多层卷积层{Hi}组成,其中Hi是在第i层中的特征层;将所有的输入层都初始化为1,并且通过分层卷积公式(1)通过Hi计算Hi+1:
其中,和是卷积网络中的可训练权重,ci是第i层中的特征通道数,σ为激活函数,D是度矩阵,A是邻接矩阵。
4.根据权利要求1或2所述的基于图卷积网络和自注意力机制的DNA存储编码方法,其特征在于,步骤2中利用自注意力机制捕捉编码的内部相关性:
对于输入向量L,使用单头注意力模块的输出向量L*是所有输入的特征向量的加权和,通过公式(2)计算:
其中,do代表控制点积大小的比例因子的平方;softmax()是归一化函数;Q、K、V分别表示查询、键、值。
5.根据权利要求3所述的基于图卷积网络和自注意力机制的DNA存储编码方法,其特征在于,步骤2中利用自注意力机制捕捉编码的内部相关性:
对于输入向量L,使用单头注意力模块的输出向量L*是所有输入的特征向量的加权和,通过公式(2)计算:
其中,do代表控制点积大小的比例因子的平方;softmax()是归一化函数;Q、K、V分别表示查询、键、值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310220809.4/1.html,转载请声明来源钻瓜专利网。