[发明专利]一种汉字基因编、解码方法及系统有效

申请号：	201711454177.9	申请日：	2017-12-28
公开（公告）号：	CN108183712B	公开（公告）日：	2019-04-16
发明（设计）人：	王凤格;霍永学	申请（专利权）人：	北京华生恒业科技有限公司;北京市农林科学院
主分类号：	H03M7/04	分类号：	H03M7/04
代理公司：	北京精金石知识产权代理有限公司 11470	代理人：	刘俊玲
地址：	100083 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	定位区汉字基因制作信息编解码编码信息信息体装饰区植物生物学解码编码字典汉字信息基因复制生物基因生物信息信息追踪预先建立高效性信息头存储追踪分析保证
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种汉字基因编码方法，包括如下步骤：

对待编码信息根据预先建立的汉字基因编码字典库获得编码信息，将获得的编码信息重复N次后形成信息体；

使用定位区编码方法，于所述信息体的前后制作信息头的定位区和信息尾的定位区；具体步骤包括：挑取一个或几个汉字，对其使用散列算法生成散列值；对生成的散列值截取部分或全部，采用基因基本编码方法将其各字节转换为碱基作为头或尾定位区编码；将所述头或尾定位区编码利用所述汉字基因编码字典库测试及随机串测试，于测试通过后作为信息头和信息尾的定位区，具体是将头或尾定位区编码于汉字基因编码字典库中，随机抽取汉字做随机组合，检验上述头或尾定位区编码的最小编辑距离，通过若干次检验，使其编辑距离达到最小后，采用随机碱基信息对头或尾定位区编码进行检验，于达到期望编辑距离时，验证通过，否则，需要更换标记文字重新制作；

于所述信息头的定位区前制作信息头的装饰区，于所述信息尾的定位区后制作信息尾的装饰区，将所述信息尾的定位区信息重复若干次作为信息头的装饰区信息，将所述信息头的定位区信息重复若干次作为所述信息尾的装饰区信息；

所述基因基本编码方法包括将汉字编码转换为四进制并与碱基进行映射建立汉字基因编码字典库，具体步骤包括：

将常用汉字进行编码，生成二进制字节；

将所述二进制字节转换为四进制；

将基因的碱基与四进制的0，1，2，3进行映射。

2.一种汉字基因编码系统，包括：

信息体生成单元，用于对待编码信息根据预先建立的汉字基因编码字典库获得编码信息，将获得的编码信息重复N次后形成信息体；

定位区生成单元，用于使用定位区编码方法，于所述信息体的前后制作信息头的定位区和信息尾的定位区；具体步骤包括：挑取一个或几个汉字，对其使用散列算法生成散列值；对生成的散列值截取部分或全部，采用基因基本编码方法将其各字节转换为碱基作为头或尾定位区编码；将所述头或尾定位区编码利用所述汉字基因编码字典库测试及随机串测试，于测试通过后作为信息头和信息尾的定位区，具体是将头或尾定位区编码于汉字基因编码字典库中，随机抽取汉字做随机组合，检验上述头或尾定位区编码的最小编辑距离，通过若干次检验，使其编辑距离达到最小后，采用随机碱基信息对头或尾定位区编码进行检验，于达到期望编辑距离时，验证通过，否则，需要更换标记文字重新制作；

装饰区生成单元，用于于所述信息头的定位区前制作信息头的装饰区，于所述信息尾的定位区后制作信息尾的装饰区，将所述信息尾的定位区信息重复若干次作为信息头的装饰区信息，将所述信息头的定位区信息重复若干次作为所述信息尾的装饰区信息；

所述基因基本编码方法包括将汉字编码转换为四进制并与碱基进行映射建立汉字基因编码字典库，具体包括：

将常用汉字进行编码，生成二进制字节；

将所述二进制字节转换为四进制；

将基因的碱基与四进制的0，1，2，3进行映射。

3.一种与权利要求1所述汉字基因编码方法对应的汉字基因解码方法，包括如下步骤：

利用字符串匹配搜索待解码消息体，找到所述待解码消息体的信息头与信息尾的定位区，根据编码时生成的信息头定位区或信息尾定位区的字符串对待解码消息体进行匹配，对信息头和信息尾的定位区进行定位，如果使用信息头定位编码查找时，若没有查到，或查到的位置，起始位置离尾部的距离小于72bp，则表明在信息头定位区有差错，使用编辑距离查找，如果还找不到，则继续增大编辑距离查找，编辑距离最大值为4；

删除所述待解码消息体中信息头定位区及前面的碱基以及信息尾定位区及后面的碱基，得到信息体；

对所述信息体进行解码。

4.如权利要求3所述的一种汉字基因解码方法，其特征在于，所述对所述信息体进行解码的步骤进一步包括：

对得到的信息体查找最大重复子串；

若查到的最大重复子串的长度正好为整个串长度的1/编码重复倍数，则使用与基因基本编码方法相反的基本解码方法对该最大重复子串进行解码；否则对所述信息体进行容错解码。

5.一种与权利要求2所述汉字基因编码系统对应的汉字基因解码系统，包括：

定位区查找单元，用于利用字符串匹配搜索待解码消息体，找到所述待解码消息体的信息头与信息尾的定位区，根据编码时生成的信息头定位区或信息尾定位区的字符串对待解码消息体进行匹配，对信息头和信息尾的定位区进行定位，如果使用信息头定位编码查找时，若没有查到，或查到的位置，起始位置离尾部的距离小于72bp，则表明在信息头定位区有差错，使用编辑距离查找，如果还找不到，则继续增大编辑距离查找，编辑距离最大值为4；

信息体提取单元，用于根据查找结果删除所述待解码消息体中信息头定位区及前面的碱基以及信息尾定位区及后面的碱基，得到信息体；

解码单元，用于对所述信息体进行解码。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京华生恒业科技有限公司;北京市农林科学院，未经北京华生恒业科技有限公司;北京市农林科学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711454177.9/1.html，转载请声明来源钻瓜专利网。

上一篇：一种低合金超高强度钢用热处理保护涂料的制备
下一篇：一种基于群组的业务传输方法

同类专利

专利分类

H 电学

H03 基本电子电路
H03M 一般编码、译码或代码转换
H03M7-00 把用给定序列的数字或给定数目的数字来表示信息的码，转换到用不同序列的数字或不同数目的数字来表示相同信息的码
H03M7-02 .转换到加权代码或相反转换，即对一数字的加权与该数字在信息组或代码字中的位置有关
H03M7-14 .转换到非加权代码或相反转换
H03M7-26 .转换到随机码或相反转换
H03M7-28 .可编程序结构，即代码转换器所包括的设备其算符是可变的，以调整转换程序
H03M7-30 .压缩

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种汉字基因编、解码方法及系统有效

专利文献下载