[发明专利]一种汉字基因编、解码方法及系统有效
申请号: | 201711454177.9 | 申请日: | 2017-12-28 |
公开(公告)号: | CN108183712B | 公开(公告)日: | 2019-04-16 |
发明(设计)人: | 王凤格;霍永学 | 申请(专利权)人: | 北京华生恒业科技有限公司;北京市农林科学院 |
主分类号: | H03M7/04 | 分类号: | H03M7/04 |
代理公司: | 北京精金石知识产权代理有限公司 11470 | 代理人: | 刘俊玲 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 定位区 汉字基因 制作信息 编 解码 编码信息 信息体 装饰区 植物生物学 解码 编码字典 汉字信息 基因复制 生物基因 生物信息 信息追踪 预先建立 高效性 信息头 存储 追踪 分析 保证 | ||
1.一种汉字基因编码方法,包括如下步骤:
对待编码信息根据预先建立的汉字基因编码字典库获得编码信息,将获得的编码信息重复N次后形成信息体;
使用定位区编码方法,于所述信息体的前后制作信息头的定位区和信息尾的定位区;具体步骤包括:挑取一个或几个汉字,对其使用散列算法生成散列值;对生成的散列值截取部分或全部,采用基因基本编码方法将其各字节转换为碱基作为头或尾定位区编码;将所述头或尾定位区编码利用所述汉字基因编码字典库测试及随机串测试,于测试通过后作为信息头和信息尾的定位区,具体是将头或尾定位区编码于汉字基因编码字典库中,随机抽取汉字做随机组合,检验上述头或尾定位区编码的最小编辑距离,通过若干次检验,使其编辑距离达到最小后,采用随机碱基信息对头或尾定位区编码进行检验,于达到期望编辑距离时,验证通过,否则,需要更换标记文字重新制作;
于所述信息头的定位区前制作信息头的装饰区,于所述信息尾的定位区后制作信息尾的装饰区,将所述信息尾的定位区信息重复若干次作为信息头的装饰区信息,将所述信息头的定位区信息重复若干次作为所述信息尾的装饰区信息;
所述基因基本编码方法包括将汉字编码转换为四进制并与碱基进行映射建立汉字基因编码字典库,具体步骤包括:
将常用汉字进行编码,生成二进制字节;
将所述二进制字节转换为四进制;
将基因的碱基与四进制的0,1,2,3进行映射。
2.一种汉字基因编码系统,包括:
信息体生成单元,用于对待编码信息根据预先建立的汉字基因编码字典库获得编码信息,将获得的编码信息重复N次后形成信息体;
定位区生成单元,用于使用定位区编码方法,于所述信息体的前后制作信息头的定位区和信息尾的定位区;具体步骤包括:挑取一个或几个汉字,对其使用散列算法生成散列值;对生成的散列值截取部分或全部,采用基因基本编码方法将其各字节转换为碱基作为头或尾定位区编码;将所述头或尾定位区编码利用所述汉字基因编码字典库测试及随机串测试,于测试通过后作为信息头和信息尾的定位区,具体是将头或尾定位区编码于汉字基因编码字典库中,随机抽取汉字做随机组合,检验上述头或尾定位区编码的最小编辑距离,通过若干次检验,使其编辑距离达到最小后,采用随机碱基信息对头或尾定位区编码进行检验,于达到期望编辑距离时,验证通过,否则,需要更换标记文字重新制作;
装饰区生成单元,用于于所述信息头的定位区前制作信息头的装饰区,于所述信息尾的定位区后制作信息尾的装饰区,将所述信息尾的定位区信息重复若干次作为信息头的装饰区信息,将所述信息头的定位区信息重复若干次作为所述信息尾的装饰区信息;
所述基因基本编码方法包括将汉字编码转换为四进制并与碱基进行映射建立汉字基因编码字典库,具体包括:
将常用汉字进行编码,生成二进制字节;
将所述二进制字节转换为四进制;
将基因的碱基与四进制的0,1,2,3进行映射。
3.一种与权利要求1所述汉字基因编码方法对应的汉字基因解码方法,包括如下步骤:
利用字符串匹配搜索待解码消息体,找到所述待解码消息体的信息头与信息尾的定位区,根据编码时生成的信息头定位区或信息尾定位区的字符串对待解码消息体进行匹配,对信息头和信息尾的定位区进行定位,如果使用信息头定位编码查找时,若没有查到,或查到的位置,起始位置离尾部的距离小于72bp,则表明在信息头定位区有差错,使用编辑距离查找,如果还找不到,则继续增大编辑距离查找,编辑距离最大值为4;
删除所述待解码消息体中信息头定位区及前面的碱基以及信息尾定位区及后面的碱基,得到信息体;
对所述信息体进行解码。
4.如权利要求3所述的一种汉字基因解码方法,其特征在于,所述对所述信息体进行解码的步骤进一步包括:
对得到的信息体查找最大重复子串;
若查到的最大重复子串的长度正好为整个串长度的1/编码重复倍数,则使用与基因基本编码方法相反的基本解码方法对该最大重复子串进行解码;否则对所述信息体进行容错解码。
5.一种与权利要求2所述汉字基因编码系统对应的汉字基因解码系统,包括:
定位区查找单元,用于利用字符串匹配搜索待解码消息体,找到所述待解码消息体的信息头与信息尾的定位区,根据编码时生成的信息头定位区或信息尾定位区的字符串对待解码消息体进行匹配,对信息头和信息尾的定位区进行定位,如果使用信息头定位编码查找时,若没有查到,或查到的位置,起始位置离尾部的距离小于72bp,则表明在信息头定位区有差错,使用编辑距离查找,如果还找不到,则继续增大编辑距离查找,编辑距离最大值为4;
信息体提取单元,用于根据查找结果删除所述待解码消息体中信息头定位区及前面的碱基以及信息尾定位区及后面的碱基,得到信息体;
解码单元,用于对所述信息体进行解码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京华生恒业科技有限公司;北京市农林科学院,未经北京华生恒业科技有限公司;北京市农林科学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711454177.9/1.html,转载请声明来源钻瓜专利网。