[发明专利]一种同源四倍体自然群体的连锁不平衡分析模型的构建方法有效
申请号: | 201410013164.8 | 申请日: | 2014-01-10 |
公开(公告)号: | CN103699815B | 公开(公告)日: | 2017-06-13 |
发明(设计)人: | 姜立波;邬荣领;冯思思 | 申请(专利权)人: | 北京林业大学 |
主分类号: | G06F19/12 | 分类号: | G06F19/12 |
代理公司: | 北京市广友专利事务所有限责任公司11237 | 代理人: | 张仲波 |
地址: | 100083 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 同源 四倍体 自然 群体 连锁 不平衡 分析 模型 构建 方法 | ||
1.一种同源四倍体自然群体的连锁不平衡分析模型的构建方法,其特征在于,包括:
步骤1、对于来自自然群体中一组同源四倍体植物,设置一个位点A和一个位点B;
其中该位点A具有4个等位基因记为A1,A2,A3,A4;该位点B具有4个等位基因记为B1,B2,B3,B4;其中p1,p2,p3,p4为位点A的基因频率,且p1+p2+p3+p4=1;其中q1,q2,q3,q4为位点B的基因频率,且q1+q2+q3+q4=1;
两个位点产生16单倍型表示为A1B1,A1B2,A1B3,A1B4,A2B1,A2B2,A2B3,A2B4,A3B1,A3B2,A3B3,A3B4,A4B1,A4B2,A4B3,A4B4。基因连锁不平衡系数表示为Dij,其代表Ai和Bj的连锁不平衡系数,i=1,2,3,4;j=1,2,3,4,下同;单倍型AiBj频率表示为pij;
步骤2、从所述自然群体中随机抽取n个同源四倍体个体,得到不同基因型个体数量nu/v;
步骤3、根据单体型频率计算相应的配子频率,并根据配子频率计算计算相应的基因型频率为pu/v;
如基因型为A3/B12的同源四倍体,其包含的基因型有A3A3A3A3B1B1B1B2,A3A3A3A3B1B1B2B2,A3A3A3A3B1B2B2B2,其基因型频率p3/12=2p331+3p312p322+2p31p323;
步骤4、估算参数,未知单倍型频率Ω=(pij),根据如下似然函数值计算:
log L(Ω)=∑nijlog(pij) (1)
由(1)获得单倍型频率的最大似然估计
让nu/v表示含有单倍型AiBj的基因型的个体数量,pu/v表示含有单倍型AiBj的基因型频率,pij表示pu/v中含有需要估算的单倍型AiBj的基因型频率;基因型中含有需要估算的单倍型并且只含有此单一的单倍型的同源四倍体的数量由mu/v表示;;
需要估算的单倍型为AiBj的个体数量为
其中
其中k是与u,v相关的自然数;
根据公式(2)和公式(4)组成EM算法的一个循环;将单倍型频率的初始值来计算在E步骤的公式(4)中φk的估算值;然后使用所计算出的φk的估算值带入M步骤的公式(2)来估算单倍型频率;重复进行E和M步骤,直至单体型频率估计收敛,得到单倍型基因频率的估算值;
根据以下公式,通过单倍型基因频率获取两个位点的等位基因的估算频率;
根据以下公式,通过单倍型基因频率计算每两个位点间的连锁不平衡系数;
步骤5、根据以下公式验证估计分布与实际分布是否存在显著性差异;
H0:D11=D12=D13=D21=D22=D23=D31=D32=D33=0;
H1:Not H0 (5)
其中H0为同源四倍体各位点不存在连锁不平衡系数;
通过最大似然估计,分别估算和波浪线对应的零假设的最大似然估计,抑扬符号对应的备择假设的最大似然估计;
通过以下公式计算对数似然比的统计学检验
LR是遵循χ2分布,自由度是9;
将计算得到的LR进行卡方检验,判断得到的LR值经卡方检验是否呈显著差异,如果呈显著差异则最终结果为H0,如果不呈显著差异则最终结果为H1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京林业大学,未经北京林业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410013164.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电力客户用电状况监测系统
- 下一篇:一种多头激光模切装置
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用