[发明专利]基于改进PSO算法的蛋白质功能模块检测方法有效
申请号: | 201610240098.7 | 申请日: | 2016-04-18 |
公开(公告)号: | CN105930688B | 公开(公告)日: | 2017-06-06 |
发明(设计)人: | 郑相涵;李坤;于元隆;陈日清 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 福州元创专利商标代理有限公司35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于改进PSO算法的蛋白质功能模块检测方法,以PPIN的拓扑结构为基础,根据存在相互作用的蛋白质建立邻接矩阵,再计算蛋白质间的距离dij;对于每个粒子,随机选取0~n之间的整数k,其中n为蛋白质的个数,求出其余各蛋白质到蛋白质k之间的距离作为当前粒子的初始位置,粒子群中初始群体最优位置是以各蛋白质到中心蛋白质的距离作为粒子群体历史最优位置,粒子的种群规模取蛋白质个数的5倍;将惯性权重w和学习因子c2设为可调因子在PSO算法搜索得出最优解后,引入基于拓扑和功能信息的后处理策略。本发明有利于寻找最优解,防止陷入局部最优;模块划分更精确,模块数量更繁多。 | ||
搜索关键词: | 基于 改进 pso 算法 蛋白质 功能模块 检测 方法 | ||
【主权项】:
一种基于改进PSO算法的蛋白质功能模块检测方法,其特征在于,包括以下步骤:步骤S1:以PPIN的拓扑结构为基础,根据存在相互作用的蛋白质建立邻接矩阵,再根据距离公式(1)计算蛋白质间的距离dij:dij=|Int(i)ΔInt(j)||Int(i)∪Int(j)|+|Int(i)∩Int(j)|---(1)]]>其中Int(i)和Int(j)分别代表蛋白质i和j具有邻接蛋白质的数量总和,|Int(i)ΔInt(j)|=|Int(i)∪Int(j)|‑|Int(i)∩Int(j)|,以此得出蛋白质网络的距离矩阵;步骤S2:对于每个粒子,随机选取0~n之间的整数k,其中n为蛋白质的个数,求出其余各蛋白质到蛋白质k之间的距离作为当前粒子的初始位置,粒子群中初始群体最优位置是以各蛋白质到中心蛋白质的距离作为粒子群体历史最优位置,粒子的种群规模取蛋白质个数的5倍;步骤S3:将惯性权重w设为可调因子:w=0.9‑a*0.4b;将学习因子c2也设为可调因子:c2=2.0*a/b,其中a为当前迭代次数,b为总迭代次数;步骤S4:在PSO算法搜索得出最优解后,进行两个部分基于功能信息的模块规划和基于拓扑的模块规划;基本PSO的数学描述:假设粒子群的初始种群大小有N,问题空间的维数为N,粒子的初始速度和位置随机产生,t时刻粒子i的速度为位置为其中i=1,2,..,N,m∈N;将粒子i在搜索过程中达到过的最优位置记为整个粒子群在搜索过程中到达过的最优位置记为则在t+1时刻粒子i在j维空间的飞行速度和位置按如下公式进行更新:Vijt+1=wvijt+c1r1(pijt-xijt)+c2r2(gijt-xijt)---(2)]]>xijt+1=xijt+vijt+1---(3)]]>vijt+1=vmax,vijt+1>vmax-vmax,vijt+1<-Vmax---(4)]]>(2)式中w为惯性权重函数值,c1,c2为学习因子,r1,r2为(0,1)之间的随机数,(4)式表示粒子的速度限制在[‑vmax,vmax]之间,vmax为粒子最大速度;粒子群的算法流程描述如下:Step1:随机初始化粒子群中各个粒子的速度和位置,并且将各个粒子的初始个体最优位置设为粒子的初始位置,将所有个体最优位置中的最优位置设为初始粒子群的群体最优位置;Step2:对各个粒子的评估函数值进行计算;Step3:如果评估函数值优于其原先评估函数值,则把当前位置更新为粒子的个体最优位置;如果评估函数值优于群体评估函数值,则把当前位置更新为群体历史最优位置;Step4:更新各个粒子的速度和位置,更新公式为(2)~(4);Step5:判断是否达到最大迭代次数,如果达到,则输出最优解,结束算法,否则返回step2;步骤S4包括以下具体步骤:步骤S41:基于功能的模块规划:合并功能相似的初始蛋白质功能模块,使用公式(5)衡量2个模块的相似性:S(MS,MT)=Σi∈MS,j∈MTs(i,j)min(|MS|,|MT|)---(5)]]>其中MS和MT分别代表两个模块的规模,而s(i,j)由以下公式(6)表示:s(i,j)=1,ifi=jfij,ifi≠j---(6)]]>其中,fij是基于基因拓扑结构相似性函数,由以下公式(7)表示:fij=|gi∩gj||gi∪gj|---(7)]]>公式(7)中的gi和gj分别取值于蛋白质i和蛋白质j在基因本体中的注释数值,fij的值越大表示两个蛋白质愈加的相似;给定相似性阀值s,以合并相似的模块,提高模块划分精度;步骤S42:基于拓扑的模块规划:通过衡量初始模块的密度,设置过滤参数,减少过于稀疏的蛋白质模块,以提高划分精度,模块的精度根据公式(8)计算:DS=en*(n-1)/2---(8)]]>其中n表示当前模块所含蛋白质的数量,e表示模块中相互作用的数量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610240098.7/,转载请声明来源钻瓜专利网。
- 上一篇:基于基因组的警报系统
- 下一篇:损伤等级模型验证方法及系统
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用