[发明专利]一种基于混合模型的DNA存储编解码方法有效
申请号: | 201910909449.2 | 申请日: | 2019-09-25 |
公开(公告)号: | CN110708076B | 公开(公告)日: | 2022-12-20 |
发明(设计)人: | 毕昆;陆祖宏 | 申请(专利权)人: | 东南大学 |
主分类号: | H03M7/40 | 分类号: | H03M7/40;H03M13/15;G06N3/12 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 吕书桁 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 模型 dna 存储 解码 方法 | ||
本发明公开了一种基于混合模型的DNA存储编解码方法,包括如下步骤:输入原始数据进行二进制转换,并进行霍夫曼编码压缩;将文件分为若干列,列首添加地址码;将DNA存储四进制和二进制模型混合编码,并修改初始模型码;采用RS编码对模型码添加纠错码,然后对DNA序列进行RS编码纠错;重复上述步骤,直至所有序列均完成编码与纠错;将所有序列按文件码和编号码排序,利用RS编码对每123列添加4列纠错序列。本发明方法将传统的DNA存储四进制模型与二进制模型混合编码,编码潜力达到1.75;相较于四进制模型,能够更好地控制GC百分比,而与二进制模型相比,存储能力大大提高。
技术领域
本发明属于数据存储技术领域,具体为一种基于混合模型的DNA存储编解码方法。
背景技术
全球数据信息总量将由2018年的30ZB增长至2025年的163ZB,该趋势将很快超过现有硬盘等存储介质的承受能力。DNA数据存储技术开辟了一种新的存储模式,其发展对于节省存储能源及推进大数据存储发展有着重要作用。DNA数据存储近年来逐渐成为全球研究的热点。包括哈佛大学、哥伦比亚大学、微软研究院、华盛顿大学和剑桥大学等国内外多家研究机构均展开对DNA存储的研究。
单位质量的DNA约有1021个碱基,可存储455EB信息,此信息量为全球一年信息总量的1/4;单位体积的DNA可存储的信息为整个互联网的33倍。DNA单位体积的存储密度是硬盘和存储器的106倍,是闪存的103倍。DNA存储时长至少为硬盘、闪存的10倍。同时,它还可以通过聚合酶链反应较容易地实现扩增以获取所需数量的拷贝副本。DNA作为最稳定的储存设备之一,对于外部环境,如高温、震荡等具有极强的抗干扰能力。
DNA存储编码模型的研究面临的困难是存储效率与合成难度、成本之间的矛盾。存储效率越高,合成难度越大,成本越高,甚至难以合成。目前相关研究均处于初级阶段,数据量较小,对数据编码多采用单一DNA模型,如二进制、三进制或四进制模型,单一模型适应性较差,存在不同的缺陷。二进制模型存储效率较低,四进制模型理论存储效率最高,但存在均聚物过多、GC含量异常等问题,合成困难,三进制模型介于两者之间,存储效率有一定提升,合成难度部分下降,但不能解决这两个问题。
针对以上问题,我们尝试集合四进制高存储效率和二进制降低合成难度的优点,进行混合模型编码,并融合数据压缩算法和纠错编码,在有效解决存储错误,降低合成难度的同时,保持高效的存储效率。
发明内容
技术问题:针对现有DNA存储模型存储效率不高、合成难度较大的问题,通过一种混合模型编码方案,在有效解决存储错误,通过减少均聚物、控制GC含量等降低合成难度的同时,保持高效的存储效率。
技术方案:为解决上述问题,本发明公开了一种基于混合模型的DNA存储编解码方法,所述方法包括如下步骤:
编码过程:
输入原始数据(所有可转换为二进制的数据均可)。
1.通过二进制转换,将原始数据转换为二进制序列。
2.对二进制序列进行霍夫曼编码压缩。
3.将压缩后的二进制文件按每175个二进制数一列,分为若干列。
4.对于每列,按每7个二进制数一组,分为25组,每组前6个二进制数两两一组,最后一个二进制数单列。共得到每列150个两位二进制数和25个单独的“0”或“1”。
5.每一列列首添加地址码,包括文件码(2个二进制数)、编号码(16个二进制数)和模型码(8个二进制数),其中模型码初值设为“00000000”,每两个二进制数构成一个两位二进制数,共13个。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910909449.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:划分的增益形状向量编码
- 下一篇:LDPC码大数逻辑译码方法、装置和译码器