[发明专利]基于图卷积网络和自注意力机制的DNA存储编码方法在审
申请号: | 202310220809.4 | 申请日: | 2023-03-09 |
公开(公告)号: | CN116206691A | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 张强;曹犇;王鹏飞 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G16B50/30 | 分类号: | G16B50/30;G16B40/00;G06F18/214;G06F18/24;G06N3/0464;G06N3/08 |
代理公司: | 辽宁鸿文知识产权代理有限公司 21102 | 代理人: | 王海波 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 图卷 网络 注意力 机制 dna 存储 编码 方法 | ||
本发明公开了基于图卷积网络和自注意力机制的DNA存储编码方法,属于DNA存储中编码技术领域。具体为:预测满足组合约束条件的DNA编码序列,首先对已有DNA编码进行筛选和数据清洗,构造DNA存储编码训练集;其次,训练基于图卷积神经网络和自注意力机制的预测模型,利用自注意力机制捕捉局部DNA编码的关系;然后,将处理为图的编码数据输入预测模型,进行满足组合约束的编码预测;最后,输出符合条件的DNA存储编码集合。本发明构建了DNA存储编码训练集,训练了一个图卷积自注意力神经网络,更好地捕获编码之间的关系,采用基于学习的预测模型进行DNA存储编码,使得本发明在处理具有复杂约束的编码时有着较高的编码效率。
技术领域
本发明属于DNA存储中编码技术领域,涉及机器学习算法和DNA存储编码,具体涉及一种基于图卷积神经网络及自注意力机制的DNA存储编码方法。本发明可以根据建模后的DNA存储编码图的结构特征和节点属性,通过图神经网络和自注意力机制对图结构和节点进行特征提取,构建DNA存储编码预测模型。
背景技术
DNA作为一种高密度、高耐久性,并且在自然界中广泛存在的存储介质,在应对海量数据方面成为了一种可能的方案。尤其在当前大环境下,DNA在存储冷数据时有得天独厚的优势。相比传统存储介质,DNA存储是一种维护能耗基本为零的存储方式,可以在室温和干燥的环境中保存数千年。基于DNA的存储的基本原理是数字数据(以二进制信息表示)和DNA分子(以硅基DNA序列表示)之间的转换。因此,编码是DNA存储中最基础也是最重要的步骤之一。DNA存储中最基本的生化技术是DNA合成(“书写”信息)、聚合酶链反应(PCR)扩增(“复制”信息)和DNA测序(“阅读”信息)。利用DNA存储非生物信息可以追溯到1940年,Davis把DNA克隆到质粒中用于保存数据。但当时合成和测序技术限制了DNA存储的发展,而近年来合成和测序技术持续进步,DNA存储再次成为全球研究的热点。然而,DNA存储中的编码效率仍然不够高,但是随着各种高效编码算法的提出,DNA存储在将来会是磁介质存储的有力替代方案。
发明内容
本发明提出了一种基于图卷积网络和自注意力机制的DNA存储编码方法,该方法首先对已满足约束的编码集进行筛选,构造训练数据集;其次,利用基于图卷积网络和自注意力机制的神经网络在数据集上训练编码预测模型;接着,将编码处理为图数据,输入预测模型,进行满足约束的编码预测;最后,比对当前节点概率值是否大于阈值,将符合条件的加入DNA存储编码集合;该方法可以预测出数量较优的DNA编码序列。
为实现上述目的,本发明的技术方案为:
基于图卷积网络和自注意力机制的DNA存储编码方法,其具体为:预测满足组合约束条件的DNA编码序列。首先对已有DNA编码进行筛选和数据清洗,构造DNA存储编码训练集;其次,训练基于图卷积神经网络和自注意力机制的预测模型,利用自注意力机制捕捉局部DNA编码的关系;然后,将处理为图的DNA编码输入预测模型,进行满足组合约束的编码预测;最后,输出符合满足约束条件的DNA存储编码集合。具体步骤如下:
步骤1:构建满足组合约束的DNA存储编码训练集。
DNA存储编码一般需要满足给定的组合约束,除距离约束外还需要满足GC含量(GC-Content)、全不连续约束(No-runlength constraint)、非相邻子序列约束(Non-adjacent subsequence constraint)、末端约束(End-constraint)和自补约束(Self-complementary constraint)等。
构建DNA存储编码训练集需要从前人工作中,收集不同约束下DNA存储编码结果。并对DNA存储编码数据进行预处理,即将DNA存储编码间的关系和编码中的信息映射为图中节点和边,最终完成DNA存储编码训练集的构建。
步骤2:构建图卷积自注意力神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310220809.4/2.html,转载请声明来源钻瓜专利网。