[发明专利]一种基于混合模型的DNA存储编解码方法有效

专利信息
申请号: 201910909449.2 申请日: 2019-09-25
公开(公告)号: CN110708076B 公开(公告)日: 2022-12-20
发明(设计)人: 毕昆;陆祖宏 申请(专利权)人: 东南大学
主分类号: H03M7/40 分类号: H03M7/40;H03M13/15;G06N3/12
代理公司: 南京众联专利代理有限公司 32206 代理人: 吕书桁
地址: 210096 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于混合模型的DNA存储编解码方法,包括如下步骤:输入原始数据进行二进制转换,并进行霍夫曼编码压缩;将文件分为若干列,列首添加地址码;将DNA存储四进制和二进制模型混合编码,并修改初始模型码;采用RS编码对模型码添加纠错码,然后对DNA序列进行RS编码纠错;重复上述步骤,直至所有序列均完成编码与纠错;将所有序列按文件码和编号码排序,利用RS编码对每123列添加4列纠错序列。本发明方法将传统的DNA存储四进制模型与二进制模型混合编码,编码潜力达到1.75;相较于四进制模型,能够更好地控制GC百分比,而与二进制模型相比,存储能力大大提高。
搜索关键词: 一种 基于 混合 模型 dna 存储 解码 方法
【主权项】:
1.一种基于混合模型的DNA存储编解码方法,其特征在于:所述方法包括如下步骤:/n1)输入原始数据,进行二进制转换;/n2)对转换后的二进制序列进行霍夫曼编码压缩;将压缩后的二进制文件按每175个二进制数一列,分为若干列;每列按每7个二进制数一组,分为25组,每组前6个二进制数两两一组,最后一个二进制数单列;/n3)每一列列首添加地址码,包括文件码、编号码和模型码,其中模型码初值设为“00000000”,每两个二进制数构成一个两位二进制数,共13个;/n4)对所有的两位二进制数进行DNA四进制模型编码,单个二进制数进行DNA模型二进制编码;根据编码结果,将DNA存储四进制模型和二进制模型混合编码,构建144种混合模型;/n5)根据确定的混合模型编号,修改对应序列的模型码;采用RS纠错编码对模型码添加长度为10碱基的纠错码,插入模型码之后;/n6)对步骤5得到的DNA序列进行RS编码纠错,添加长度为4碱基的纠错码,置于序列尾部,得到含有127碱基的DNA序列;/n7)重复步骤3)至6),直至所有序列均完成编码与纠错;/n8)将完成编码的所有序列按文件码和编号码排序,每123列组成一个127行*123列的矩阵,其中123列表示123列已完成编码的连续编号DNA序列,127行表示DNA序列的127个碱基;然后,从模型码开始,逐行进行RS编码纠错,纠错码长度为4个碱基,生成127*127的矩阵,即每123列DNA序列后,添加4列纠错序列;纠错序列前9列添加独立索引,按混合模型1编码;/n9)解码过程为编码的反向过程,将测序得到的碱基序列按文件码和编号码排序,纠错序列按顺序插入其中,重新构建127*127矩阵,首先进行RS编码的行解码,根据4列纠错序列进行错误碱基纠正;然后对123列数据存储序列,每一列进行RS解码;最后对每一列的模型码进行RS解码;/n10)对每一列碱基按照模型码编号,选择对应的混合模型,解码转换为对应二进制序列;/n11)全部解码完成后将二进制序列按照文件码和编号码拼接,删除地址码和纠错码,得到存储信息的二进制文件;/n12)对二进制文件进行霍夫曼解码,得到初始二进制序列,将初始二进制序列重新生成为输入文件。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910909449.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top