[发明专利]一种用一维细胞神经网络检测DNA序列相似度的方法有效
申请号: | 201310552472.3 | 申请日: | 2013-11-08 |
公开(公告)号: | CN103544406A | 公开(公告)日: | 2014-01-29 |
发明(设计)人: | 纪禄平;郝德水;周龙;黄青君;尹力;杨洁 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F19/22 | 分类号: | G06F19/22;G06N3/02 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种用一维细胞神经网络检测DNA序列相似度的方法,首先设计出一维细胞神经网络基本模型,然后利用这种模型建构一个一维的对偶细胞神经网络;再用两个待检测的DNA序列信息对该网络进行初始化,网络运行过程中,记录各时刻网络中的细胞状态和输出,据此形成最优输出矩阵;再对最优输出矩阵中的元素进行遍历,从而确定最佳的对齐路径;最后根据对齐路径对两个序列进行空格插入操作以便将两个序列全局对齐;序列对齐后,再根据对齐的碱基数量和总的碱基数量来计算其全局相似度。经过测试对比表明,本发明在保证检测准确的基础上,对于长度较长的DNA序列,所需的计算时间比现有方法明显有较大幅度地减少。 | ||
搜索关键词: | 一种 用一维 细胞 神经网络 检测 dna 序列 相似 方法 | ||
【主权项】:
1.一种用一维细胞神经网络检测DNA序列相似度的方法,包括以下步骤:(1)、设计一维细胞神经网络基本模型将单细胞进行链状排列,各细胞序号依次用“…、i-1、i、i+1、…”来表示,其中的字母i表示细胞的排列序号;该基本模型中细胞状态用微分方程组来表示:C ∂ x i ( t ) ∂ t = - x i ( t ) R x + A ⊗ Y i ( t ) + B ⊗ U i ( t ) + I i y i ( t ) = f ( x i ( t ) ) - - - ( 1 ) ]]> 其中,方程组(1)中,t表示时间,xi表示细胞i的状态,A是反馈模板,B是控制模板,Ii、Rx和C分别是三个常量,f(xi(t))是细胞状态的输出调制函数;Yi(t)表示细胞i包括自己的邻域输出矩阵,Ui(t)表示细胞i包括自己的邻域输入,分别表示为:Y i ( t ) = y i - 1 ( t ) y i ( t ) y i ( t + 1 ) U i ( t ) = u i - 1 ( t ) u i ( t ) u i + 1 ( t ) ; ]]> 细胞输出调制函数f(xi(t))的具体形态为:y i ( t ) = f ( x i ( t ) ) = 1 2 ( | x i ( t ) + 1 | - | x i ( t ) - 1 | ) - - - ( 2 ) ]]> (2)、构建一维对称细胞神经网络用步骤(1)设计的一维细胞神经网络模型,先分别生成主子网CNN1和从子网CNN2,再由二者构建一个一维对偶细胞神经网络:在一维对偶细胞神经网络中,主子网CNN1是固定不动的,而从子网CNN2则是可以沿主子网CNN1平行移动,时间t每增加1,从子网CNN2移动一步,且从子网CNN2每次移动的距离等于主子网CNN1中两个相连细胞之间的距离;主子网CNN1由细胞0、1、2、…、m-1组成,从子网CNN2由细胞0、1、2、…、n组成;在一维对偶细胞神经网络中,令C=1、Rx=1,则用以表示细胞状态的微分方程简化为:x i ( t + 1 ) = Σ l ∈ L ( i ) A ⊗ Y l ( t ) + Σ l ∈ L ( i ) B ⊗ U l ( t ) + I i - - - ( 3 ) ; ]]> 时间T=t+1时,细胞i的输出yi(t+1)相应被重新定义为:y i ( t + 1 ) = f ( x i ( t + 1 ) ) = 1 2 ( | x i ( t + 1 ) + 1 | - | x i ( t + 1 ) - 1 | ) - - - ( 4 ) ]]> (3)、利用步骤(2)构建的一维对偶细胞神经网络,对两个待检测相似度的DNA序列进行全局的碱基对齐;3.1)、对偶细胞网络的初始化待匹配的两个DNA碱基序列S1和S2的碱基数量分别为K1和K2,碱基序列的碱基代码分别表示为S1(k1)和S2(k2),且0≤k1≤K1-1和0≤k2≤K2-1,则主子网CNN1和从子网CNN2的细胞数量分别被初始化为K1+1和K2+1,即细胞数量m=K1+1和n=K2+1;用u1(i)和u2(j)表示主子网CNN1的第i个细胞输入和从子网CNN2的第j个细胞输入,则满足0≤i≤K1且0≤j≤K2,主子网CNN1和从子网CNN2中各细胞的细胞输入分别按公式(5)和公式(6)进行赋值:其中,符号“*”表示细胞的输入u设置为空值;主子网CNN1中的另一个常量参数初始化赋值为Ii=2;主子网CNN1中使用到的反馈模板Α和控制模板B分别初始化为下列两个常数矩阵:A=[0 1 0]和B=[0 1 -1];此外,还要将主子网CNN1中细胞i,i=0,1,..,K1,的初始状态即t=0时均分别设置为xi(0)=0、yi(0)=0;主子网CNN1的第0个细胞和从子网CNN2第K2个细胞对齐;3.2)、迭代地计算主子网CNN1中细胞在各时刻的状态和输出时间t每增加1,从子网CNN2沿主子网CNN1的排列需要增加方向移动一步;对主子网CNN1,如果细胞i的正下方的那个细胞jL存在,则选取其3个邻域细胞即细胞i-1,i以及从子网CNN2中正处于i正下方的那个细胞jL;在时间t,t=1,2,…,m+n-1时,当时间t和细胞序号i同时满足条件1≤t≤m+n-1和1≤i≤m+1时,分别计算各细胞的最优状态和最优输出而如果细胞i的正下方的那个细胞jL不存在,则不计算细胞最优状态的和最优输出值;所述的最优状态和最优输出分别按下列公式计算:x i ‾ ( t ) = max { x i - 1 ( t - 2 ) + 2 I i , x i - 1 ( t - 1 ) - I i , x i ( t - 1 ) - I i } - - - ( 7 ) ]]> 其中,函数max(...)表示求取输入参数中的最大值,xi-1(t-2)、xi-1(t-1)和xi(t-1)均按公式(3)进行计算;3.3)、形成细胞的最优输出矩阵根据步骤3.2)计算得到主子网CNN1的所有细胞在各时刻的最优状态和最优输出,然后按照第1列为细胞1从t=1到n时刻最优输出、第2列为细胞2从t=2到1+n时刻最优输出、…、第m列为细胞m从t=m到m+n时刻最优输出得到主网络CNN1的最终的细胞最优输出矩阵Sy;3.4)、对两个DNA序列的碱基进行全局对齐根据步骤3.3)得到的最优输出矩阵Sy,从矩阵左上角的元素开始,从左至右、从上至下遍历矩阵,确定最优输出矩阵Sy中值为1的矩阵元素位置,并将确定好的各元素按顺序连接以形成碱基的对齐路径P;根据已确定好的碱基对齐路径P,分三种情况对DNA碱基序列S1和S2进行操作:从第一个元素1开始,如果下一个1位于其下,则在序列S1的当前位置插入符号“*”;如果下一个元素1位于其右侧,则在序列S2的当前位置插入符号“*”;如果下一个1刚好位于其右下位置,则不对S2和S2的当前位置做任何操作。处理完成Sy的第一个元素后,按前述的三种情况继续处理第二个元素,直到输出矩阵Sy的全部值为1的元素全部都已经被处理完毕,此时S2和S2已按碱基的排列顺序完成了全局对齐;(4)、计算两个DNA碱基序列序列S2和S2的全局相似度定义序列S2和S2的全局相似度为SC(S1,S2),则这两个DNA碱基序列的全局相似度按如下公式进行计算:SC ( S 1 , S 2 ) = 2 × N match Len ( S 1 ) + Len ( S 2 ) × 100 % - - - ( 9 ) ]]> 其中,符号Nmatch表示两个DNA碱基序列S2和S2经全局序列对齐以后,匹配成功的碱基对数量,Len(S1)和Len(S2)分别表示序列S1和S2的实际长度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310552472.3/,转载请声明来源钻瓜专利网。
- 上一篇:用于镁/钢异质金属连接的焊接材料及其制备方法
- 下一篇:激光加工方法
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用