[发明专利]一种基于混合模型的DNA存储编解码方法有效

申请号：	201910909449.2	申请日：	2019-09-25
公开（公告）号：	CN110708076B	公开（公告）日：	2022-12-20
发明（设计）人：	毕昆;陆祖宏	申请（专利权）人：	东南大学
主分类号：	H03M7/40	分类号：	H03M7/40;H03M13/15;G06N3/12
代理公司：	南京众联专利代理有限公司 32206	代理人：	吕书桁
地址：	210096 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于混合模型 dna 存储解码方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于混合模型的DNA存储编解码方法，其特征在于：所述方法包括如下步骤：

1）输入原始数据，进行二进制转换；

2）对转换后的二进制序列进行霍夫曼编码压缩；将压缩后的二进制文件按每175个二进制数一列，分为若干列；每列按每7个二进制数一组，分为25组，每组前6个二进制数两两一组，最后一个二进制数单列；

3）每一列列首添加地址码，包括文件码、编号码和模型码，其中模型码初值设为“00000000”，每两个二进制数构成一个两位二进制数，共13个；

4）对所有的两位二进制数进行DNA四进制模型编码，单个二进制数进行DNA模型二进制编码；根据编码结果，将DNA存储四进制模型和二进制模型混合编码，构建144种混合模型；

5）根据确定的混合模型编号，修改对应序列的模型码；采用RS纠错编码对模型码添加长度为10碱基的纠错码，插入模型码之后；

6）对步骤5得到的DNA序列进行RS编码纠错，添加长度为4碱基的纠错码，置于序列尾部，得到含有127碱基的DNA序列；

7）重复步骤3）至6），直至所有序列均完成编码与纠错；

8）将完成编码的所有序列按文件码和编号码排序，每123列组成一个127行*123列的矩阵，其中123列表示123列已完成编码的连续编号DNA序列，127行表示DNA序列的127个碱基；然后，从模型码开始，逐行进行RS编码纠错，纠错码长度为4个碱基，生成127*127的矩阵，即每123列DNA序列后，添加4列纠错序列；纠错序列前9列添加独立索引，按混合模型1编码；

9）解码过程为编码的反向过程，将测序得到的碱基序列按文件码和编号码排序，纠错序列按顺序插入其中，重新构建127*127矩阵，首先进行RS编码的行解码，根据4列纠错序列进行错误碱基纠正；然后对123列数据存储序列，每一列进行RS解码；最后对每一列的模型码进行RS解码；

10）对每一列碱基按照模型码编号，选择对应的混合模型，解码转换为对应二进制序列；

11）全部解码完成后将二进制序列按照文件码和编号码拼接，删除地址码和纠错码，得到存储信息的二进制文件；

12）对二进制文件进行霍夫曼解码，得到初始二进制序列，将初始二进制序列重新生成为输入文件。

2.基于权利要求1所述的基于混合模型的DNA存储编解码方法，其特征在于，所述原始数据为任何可以转换为二进制的数据。

3.基于权利要求1所述的基于混合模型的DNA存储编解码方法，其特征在于，所述二进制文件的划分中，每一条数据长度需要是7的整数倍，每列按每7个二进制数一组，分为25组，每组前6个二进制数两两一组，最后一个二进制数单列。

4.基于权利要求1所述的基于混合模型的DNA存储编解码方法，其特征在于，所述地址码包括文件码、编号码、模型码。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东南大学，未经东南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910909449.2/1.html，转载请声明来源钻瓜专利网。