[发明专利]利用编码转化实现基于序列比对的攻击特征提取的方法有效
申请号: | 201210077357.0 | 申请日: | 2012-03-22 |
公开(公告)号: | CN102663287A | 公开(公告)日: | 2012-09-12 |
发明(设计)人: | 唐勇;赵越;张博锋;王勇军 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F21/00 | 分类号: | G06F21/00;G06F19/22 |
代理公司: | 国防科技大学专利服务中心 43202 | 代理人: | 郭敏 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种利用编码转化实现基于序列比对的攻击特征提取的方法,目的是解决现有攻击特征提取的准确性和时效性不高的问题。其特征在于先设计由编码转化映射表List、编码转化模块、标准多序列比对程序和编码逆转化模块组成的多序列比对攻击特征提取软件,然后由编码转化模块对多个攻击字符序列进行编码转化,生成标准多序列比对程序可以处理的多个氨基酸序列或核酸序列,再选择多序列比对程序对氨基酸序列或核酸序列进行多序列比对,得到比对结果,最后由编码逆转化模块将比对结果中标记的共同序列提取出来,并根据List映射回攻击序列字符,得到攻击特征。采用本发明可以及时运用多序列比对软件,提高攻击特征提取的准确性和时效性。 | ||
搜索关键词: | 利用 编码 转化 实现 基于 序列 攻击 特征 提取 方法 | ||
【主权项】:
1.一种利用编码转化实现基于序列比对的攻击特征提取的方法,其特征在于包括以下步骤:第一步,设计基于编码转化技术的多序列比对攻击特征提取软件,多序列比对攻击特征提取软件由编码转化映射表List、编码转化模块、标准多序列比对程序和编码逆转化模块组成;编码转化映射表List为一个字符数组,数组中每个元素的内容为氨基酸字符或核酸字符,一个List中不同时具有氨基酸字符和核酸字符,List中元素的内容没有重复,且List中元素个数大于等于2,List中每个元素都有对应的唯一的下标;编码转化模块接收用户提供的用于攻击特征提取的多个攻击字符序列,根据编码转化映射表List,采用映射关系f:X→Ym将多个攻击字符序列转化为多个氨基酸序列或核酸序列,将多个氨基酸序列或核酸序列传输给标准多序列比对程序;m为一位攻击字符所对应氨基酸字符或核酸字符的位数,集合X为攻击字符序列中的所有可能出现的字符的集合,集合Y为编码转化映射表中所有单个氨基酸字符或核酸字符的下标的集合,映射关系f:X→Ym必须为单射,即对每一值域Ym内的y1y2...ym,存在至多一个定义域X内的x使得f(x)=y1y2...ym。;标准多序列比对程序是指生物信息学中现有的用于对多个氨基酸序列或核酸序列进行序列比对的应用程序,标准多序列比对程序对转化后的氨基酸序列或核酸序列进行多序列比对,并将多序列比对结果传输给编码逆转化模块;编码逆转化模块接收标准多序列比对程序的比对结果,提取比对结果中多个氨基酸序列或核酸序列所共有的序列片段即共同序列,并根据编码转化映射表List将共同序列通过f:X→Ym的逆映射进行编码逆转化,将共同序列的内容还原为攻击字符序列中相应的字符,即为多个攻击字符序列所具有的攻击特征;第二步,编码转化模块对多个攻击字符序列进行编码转化,生成标准多序列比对程序可以处理的多个氨基酸序列或核酸序列,方法是:2.1根据用户输入的文件存储路径查找到需要进行编码转化的攻击字符序列,攻击字符序列个数为N,N≥2;2.2对编码转化模块进行初始化,设需要进行编码转化的攻击字符序列为S0,S1...Si,...Sn-1,n=N,Si为当前需要进行编码转化的攻击字符序列,i的初始值为0,0≤i≤n-1,设Si中当前需要进行编码转化的攻击字符为第j个,j的初始值为0,0≤j≤Li,Li为序列Si的长度,即Si中的字符个数;2.3对攻击字符序列Si进行命名,命名方法是N个攻击字符序列都具有不同的序列名,并将Si的序列名写入编码转化结果文件中文件格式要求的位置,编码转化结果文件格式是指标准氨基酸多序列比对程序可以处理的文件格式;2.4读取当前序列第j个字符,判断字符内容是否为结束符,若是则转2.7,若否则转2.5;2.5根据得到的字符内容,通过映射关系f:X→Ym,分别得到m个氨基酸字符或核酸字符在List中对应的下标,通过下标依次找到List中的m位氨基酸字符或核酸字符并写入编码转化结果文件中;2.6令Si中当前字符位置向后移动一位,即j=j+1,转2.4;2.7令当前需要进行编码转化的攻击字符序列为下一攻击字符序列,即i=i+1,判断i是否大于等于n,若是,表示对所有攻击字符序列已转化完,得到用于进行多序列比对的N个氨基酸序列或核酸序列,转第三步,若否,转2.3;第三步,选择标准多序列比对程序对N个氨基酸序列或核酸序列进行多序列比对,得到N个氨基酸序列或核酸序列的比对结果,比对结果由N个参与比对的氨基酸序列或核酸序列及一个标记序列构成,标记序列中将N个参与比对的氨基酸序列或核酸序列所具有的共同序列字符所在的位置用标记字符标记,并将多序列比对结果传输给编码逆转化模块;第四步,编码逆转化模块将比对结果中标记的共同序列提取出来,并根据编码转化映射表List映射回攻击序列字符,得到多个攻击字符序列的共同部分,即攻击特征,方法是:4.1在比对结果中选取一个氨基酸序列或核酸序列作为基序列,基序列要求第一位字符不为间隔标记,间隔标记是标准多序列比对程序用于将多个氨基酸序列或核酸序列中共同序列部分位置对齐而在多个氨基酸序列或核酸序列中插入的字符,该字符与氨基酸序列或核酸序列中其他所有的字符不重复;4.2查找每一序列的内容中是否具有标记字符找到比对结果中的标记序列;4.3确定标记序列中标记字符存在于序列中的位置,设标记字符存在于标记序列的第j1位,第j2位,第j3位…第js位,1≤js≤Li,从基序列第一个字符开始遍历基序列,若为第j1位,第j2位,第j3位…第js位,则提取出氨基酸字符或核酸字符,写入中间结果中,否则将间隔标记写入中间结果的序列中,直至基序列遍历完毕;4.4以表示一位攻击字符所需氨基酸字符或核酸字符的位数m位为单位读取中间结果中的序列内容;4.5检查当前读取的m位中间结果的序列内容中是否有结束符,若是则转4.9,若否则转4.6;4.6检查当前读取的m位中间结果的序列内容中是否有间隔标记,若是则写入一个间隔标记到攻击特征,转4.8,若否则转4.7;4.7根据当前读取的m位氨基酸字符或核酸字符的内容,根据编码转化映射表List找到m位氨基酸字符或核酸字符在List中对应的下标,通过f:X→Ym的逆映射g:Ym→X,得到当前m位氨基酸字符或核酸字符表示的攻击字符内容,将相应攻击字符内容写入攻击特征,映射关系g:Ym→X满足对于有g(f(x))=x,即对于任意的攻击字符内容x,在通过映射关系f转化为y1y2...ym后,能够通过映射关系g将y1y2...ym转化得到原来攻击字符内容x;4.8向后读取m位中间结果中序列的内容,转4.5;4.9编码逆转化完成,得到所选的多个攻击字符序列的共同部分,即攻击特征。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210077357.0/,转载请声明来源钻瓜专利网。
- 上一篇:树脂金刚线的制作方法
- 下一篇:在高压下生产高浓度的精氨酸碳酸氢盐溶液的方法