[发明专利]一种基于混合模型的DNA存储编解码方法有效
申请号: | 201910909449.2 | 申请日: | 2019-09-25 |
公开(公告)号: | CN110708076B | 公开(公告)日: | 2022-12-20 |
发明(设计)人: | 毕昆;陆祖宏 | 申请(专利权)人: | 东南大学 |
主分类号: | H03M7/40 | 分类号: | H03M7/40;H03M13/15;G06N3/12 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 吕书桁 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 模型 dna 存储 解码 方法 | ||
1.一种基于混合模型的DNA存储编解码方法,其特征在于:所述方法包括如下步骤:
1)输入原始数据,进行二进制转换;
2)对转换后的二进制序列进行霍夫曼编码压缩;将压缩后的二进制文件按每175个二进制数一列,分为若干列;每列按每7个二进制数一组,分为25组,每组前6个二进制数两两一组,最后一个二进制数单列;
3)每一列列首添加地址码,包括文件码、编号码和模型码,其中模型码初值设为“00000000”,每两个二进制数构成一个两位二进制数,共13个;
4)对所有的两位二进制数进行DNA四进制模型编码,单个二进制数进行DNA模型二进制编码;根据编码结果,将DNA存储四进制模型和二进制模型混合编码,构建144种混合模型;
5)根据确定的混合模型编号,修改对应序列的模型码;采用RS纠错编码对模型码添加长度为10碱基的纠错码,插入模型码之后;
6)对步骤5得到的DNA序列进行RS编码纠错,添加长度为4碱基的纠错码,置于序列尾部,得到含有127碱基的DNA序列;
7)重复步骤3)至6),直至所有序列均完成编码与纠错;
8)将完成编码的所有序列按文件码和编号码排序,每123列组成一个127行*123列的矩阵,其中123列表示123列已完成编码的连续编号DNA序列,127行表示DNA序列的127个碱基;然后,从模型码开始,逐行进行RS编码纠错,纠错码长度为4个碱基,生成127*127的矩阵,即每123列DNA序列后,添加4列纠错序列;纠错序列前9列添加独立索引,按混合模型1编码;
9)解码过程为编码的反向过程,将测序得到的碱基序列按文件码和编号码排序,纠错序列按顺序插入其中,重新构建127*127矩阵,首先进行RS编码的行解码,根据4列纠错序列进行错误碱基纠正;然后对123列数据存储序列,每一列进行RS解码;最后对每一列的模型码进行RS解码;
10)对每一列碱基按照模型码编号,选择对应的混合模型,解码转换为对应二进制序列;
11)全部解码完成后将二进制序列按照文件码和编号码拼接,删除地址码和纠错码,得到存储信息的二进制文件;
12)对二进制文件进行霍夫曼解码,得到初始二进制序列,将初始二进制序列重新生成为输入文件。
2.基于权利要求1所述的基于混合模型的DNA存储编解码方法,其特征在于,所述原始数据为任何可以转换为二进制的数据。
3.基于权利要求1所述的基于混合模型的DNA存储编解码方法,其特征在于,所述二进制文件的划分中,每一条数据长度需要是7的整数倍,每列按每7个二进制数一组,分为25组,每组前6个二进制数两两一组,最后一个二进制数单列。
4.基于权利要求1所述的基于混合模型的DNA存储编解码方法,其特征在于,所述地址码包括文件码、编号码、模型码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910909449.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:划分的增益形状向量编码
- 下一篇:LDPC码大数逻辑译码方法、装置和译码器