[发明专利]代码生成方法、代码生成装置以及计算机可读存储介质在审
申请号: | 201580042711.8 | 申请日: | 2015-07-31 |
公开(公告)号: | CN107155361A | 公开(公告)日: | 2017-09-12 |
发明(设计)人: | 陈晓明;M.布拉瓦特;K.盖德克;I.许特尔 | 申请(专利权)人: | 汤姆逊许可公司 |
主分类号: | G06N3/12 | 分类号: | G06N3/12;G11C7/10;G11C13/00;H03M5/14 |
代理公司: | 北京市柳沈律师事务所11105 | 代理人: | 吕晓章 |
地址: | 法国伊西*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 代码 生成 方法 装置 以及 计算机 可读 存储 介质 | ||
技术领域
提出了一种代码生成方法和装置。特别地,本公开涉及用于将源代码字映射到目标代码字(例如适于对用于存储在合成核酸链中的信息进行编码)的方法和装置,并且涉及相应的计算机可读存储介质。
背景技术
核酸是聚合大分子并且由称为核苷酸的单体序列组成。每个核苷酸由糖组分、磷酸基团和含氮碱基或核碱基组成。核苷酸的糖组分为脱氧核糖的核酸分子是DNA(脱氧核糖核酸)分子,而核苷酸的糖组分为核糖的核酸分子被称为RNA(核糖核酸)分子。DNA和RNA是出现在生物体中的生物聚合物。
核酸分子被组装为核苷酸的串或链。可以人工生成核酸分子,并且它们的串结构可以用于对任何种类的用户数据进行编码。为了在合成的、即人工创建的DNA或RNA中存储数据,通常生成短DNA或RNA片段(低聚核苷酸,短:寡核苷酸)。利用这些核酸片段,可以实现数据存储系统,其中数据存储在核酸分子中。合成的核酸分子携带由形成核酸分子的一连串不同核苷酸所编码的信息。每个合成的核酸分子由通过使用合成器的生物化学处理所生成的核苷酸的序列或串组成,并且表现寡核苷酸或核酸片段,其中核苷酸的序列或级联对与信息单元的集合(例如,用户数据的信息位的集合)相对应的代码字序列进行编码。例如,在DNA存储系统中生成短DNA片段。可以存储这些分子,并且可以通过使用测序器读取核苷酸序列来从存储的分子中取回信息。
测序是确定特定核酸片段内的核苷酸的顺序的处理。测序可以解释为读取处理。核苷酸的读出顺序被处理或解码以恢复存储在核酸片段中的原始信息。
在该背景下,术语“核酸片段”、“低聚核苷酸”和“寡核苷酸”可互换地使用并且指代短核酸链。该背景下的术语“短”应理解为与天然DNA的长度相比是短的,该天然DNA对生物体使用的遗传指令进行编码并且可以由数百万个核苷酸组成。合成的寡核苷酸可以包含多于一个(例如多于百个,例如在100与300之间,或者几千个)核苷酸。
该技术使得能够提供数据存储系统,其中写入处理基于作为对要存储的信息进行编码的核苷酸序列的核酸片段的创建。
生成的核酸片段例如作为固体物质或者溶解于液体中而存储在核酸存储容器中。核酸存储的特性可以取决于存储的数据的量和在将发生数据的读出之前的预期时间。
合成的DNA或RNA中的数字信息存储可以提供高容量、低维护的信息存储。
已经在“Next-generation digital information storage”,Church等人,科学(Science)第337卷,第1628页,2012年和“Towards practical,high-capacity,low-maintenance information storage in synthesized DNA”,Goldman等人,自然(Nature),第494卷,2013年中研究了DNA存储。
数据可以是要存储的任何种类的有序数字源数据(例如二进制或四进制代码符号的序列),对应于数字(例如二进制)编码的信息,诸如文本、图像、音频或视频数据。由于有限的寡核苷酸长度,数据通常分布到多个寡核苷酸。
在这样的核酸存储系统中,寡核苷酸经历几个处理阶段:合成寡核苷酸,即创建要存储的核酸链,扩增寡核苷酸,即增加每个单寡核苷酸的数目,例如增加到几百个或数千个,以及测序寡核苷酸,即分析每个寡核苷酸的核苷酸序列。这些处理阶段可能经历错误,导致不可解码或者不正确解码的信息。
DNA链由通过它们各自的核碱基或含氮碱基识别的四种不同的核苷酸组成,即腺嘌呤、胸腺嘧啶、胞嘧啶和鸟嘌呤,分别简称为A、T、C和G。RNA链也由通过它们各自的核碱基识别的四种不同的核苷酸组成,即腺嘌呤、尿嘧啶、胞嘧啶和鸟嘌呤,分别简称为A、U、C和G。
信息被存储在核苷酸序列中。作为信息传输系统,从信息位到不同核苷酸的这种映射可以解释为以A、T、C、G作为调制符号(或者分别是A、U、C和G)的调制,其中符号字母表的大小为4。相反,从给定符号元组或目标代码字到信息位元组或源代码字的判决规则可以称为解调。
核碱基倾向于经由氢键连接到它们的互补配对物。例如,天然DNA通常显示双螺旋结构,其中一条链的A连接到另一条链的T,并且类似地,C倾向于连接到G。在该背景下,A和T以及C和G被称为互补。相应地,A与U和G与C形成互补RNA碱基对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汤姆逊许可公司,未经汤姆逊许可公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201580042711.8/2.html,转载请声明来源钻瓜专利网。