[发明专利]一种用一维细胞神经网络检测DNA序列相似度的方法有效
申请号: | 201310552472.3 | 申请日: | 2013-11-08 |
公开(公告)号: | CN103544406A | 公开(公告)日: | 2014-01-29 |
发明(设计)人: | 纪禄平;郝德水;周龙;黄青君;尹力;杨洁 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F19/22 | 分类号: | G06F19/22;G06N3/02 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用一维 细胞 神经网络 检测 dna 序列 相似 方法 | ||
1.一种用一维细胞神经网络检测DNA序列相似度的方法,包括以下步骤:
(1)、设计一维细胞神经网络基本模型
将单细胞进行链状排列,各细胞序号依次用“…、i-1、i、i+1、…”来表示,其中的字母i表示细胞的排列序号;
该基本模型中细胞状态用微分方程组来表示:
其中,方程组(1)中,t表示时间,xi表示细胞i的状态,A是反馈模板,B是控制模板,Ii、Rx和C分别是三个常量,f(xi(t))是细胞状态的输出调制函数;Yi(t)表示细胞i包括自己的邻域输出矩阵,Ui(t)表示细胞i包括自己的邻域输入,分别表示为:
细胞输出调制函数f(xi(t))的具体形态为:
(2)、构建一维对称细胞神经网络
用步骤(1)设计的一维细胞神经网络模型,先分别生成主子网CNN1和从子网CNN2,再由二者构建一个一维对偶细胞神经网络:
在一维对偶细胞神经网络中,主子网CNN1是固定不动的,而从子网CNN2则是可以沿主子网CNN1平行移动,时间t每增加1,从子网CNN2移动一步,且从子网CNN2每次移动的距离等于主子网CNN1中两个相连细胞之间的距离;主子网CNN1由细胞0、1、2、…、m-1组成,从子网CNN2由细胞0、1、2、…、n组成;
在一维对偶细胞神经网络中,令C=1、Rx=1,则用以表示细胞状态的微分
方程简化为:
时间T=t+1时,细胞i的输出yi(t+1)相应被重新定义为:
(3)、利用步骤(2)构建的一维对偶细胞神经网络,对两个待检测相似度的DNA序列进行全局的碱基对齐;
3.1)、对偶细胞网络的初始化
待匹配的两个DNA碱基序列S1和S2的碱基数量分别为K1和K2,碱基序列的碱基代码分别表示为S1(k1)和S2(k2),且0≤k1≤K1-1和0≤k2≤K2-1,则主子网CNN1和从子网CNN2的细胞数量分别被初始化为K1+1和K2+1,即细胞数量m=K1+1和n=K2+1;
用u1(i)和u2(j)表示主子网CNN1的第i个细胞输入和从子网CNN2的第j个细胞输入,则满足0≤i≤K1且0≤j≤K2,主子网CNN1和从子网CNN2中各细胞的细胞输入分别按公式(5)和公式(6)进行赋值:
其中,符号“*”表示细胞的输入u设置为空值;
主子网CNN1中的另一个常量参数初始化赋值为Ii=2;主子网CNN1中使用到的反馈模板Α和控制模板B分别初始化为下列两个常数矩阵:
A=[0 1 0]和B=[0 1 -1];
此外,还要将主子网CNN1中细胞i,i=0,1,..,K1,的初始状态即t=0时均分别设置为xi(0)=0、yi(0)=0;主子网CNN1的第0个细胞和从子网CNN2第K2个细胞对齐;
3.2)、迭代地计算主子网CNN1中细胞在各时刻的状态和输出
时间t每增加1,从子网CNN2沿主子网CNN1的排列需要增加方向移动一步;
对主子网CNN1,如果细胞i的正下方的那个细胞jL存在,则选取其3个邻域细胞即细胞i-1,i以及从子网CNN2中正处于i正下方的那个细胞jL;在时间t,t=1,2,…,m+n-1时,当时间t和细胞序号i同时满足条件1≤t≤m+n-1和1≤i≤m+1时,分别计算各细胞的最优状态和最优输出而如果细胞i的正下方的那个细胞jL不存在,则不计算细胞最优状态的和最优输出值;
所述的最优状态和最优输出分别按下列公式计算:
其中,函数max(...)表示求取输入参数中的最大值,xi-1(t-2)、xi-1(t-1)和xi(t-1)均按公式(3)进行计算;
3.3)、形成细胞的最优输出矩阵
根据步骤3.2)计算得到主子网CNN1的所有细胞在各时刻的最优状态和最优输出,然后按照第1列为细胞1从t=1到n时刻最优输出、第2列为细胞2从t=2到1+n时刻最优输出、…、第m列为细胞m从t=m到m+n时刻最优输出得到主网络CNN1的最终的细胞最优输出矩阵Sy;
3.4)、对两个DNA序列的碱基进行全局对齐
根据步骤3.3)得到的最优输出矩阵Sy,从矩阵左上角的元素开始,从左至右、从上至下遍历矩阵,确定最优输出矩阵Sy中值为1的矩阵元素位置,并将确定好的各元素按顺序连接以形成碱基的对齐路径P;
根据已确定好的碱基对齐路径P,分三种情况对DNA碱基序列S1和S2进行操作:从第一个元素1开始,如果下一个1位于其下,则在序列S1的当前位置插入符号“*”;如果下一个元素1位于其右侧,则在序列S2的当前位置插入符号“*”;如果下一个1刚好位于其右下位置,则不对S2和S2的当前位置做任何操作。
处理完成Sy的第一个元素后,按前述的三种情况继续处理第二个元素,直到输出矩阵Sy的全部值为1的元素全部都已经被处理完毕,此时S2和S2已按碱基的排列顺序完成了全局对齐;
(4)、计算两个DNA碱基序列序列S2和S2的全局相似度
定义序列S2和S2的全局相似度为SC(S1,S2),则这两个DNA碱基序列的全局相似度按如下公式进行计算:
其中,符号Nmatch表示两个DNA碱基序列S2和S2经全局序列对齐以后,匹配成功的碱基对数量,Len(S1)和Len(S2)分别表示序列S1和S2的实际长度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310552472.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于镁/钢异质金属连接的焊接材料及其制备方法
- 下一篇:激光加工方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用