[发明专利]一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法无效
申请号: | 201210049757.0 | 申请日: | 2012-02-29 |
公开(公告)号: | CN102629255A | 公开(公告)日: | 2012-08-08 |
发明(设计)人: | 张虎勤;刘芳娥;吴晓明;杜建强;夏娟娟;刘晓刚;郭燕 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/12 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 弋才富 |
地址: | 710048*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法,采用遗传算法和k-modes模型嵌合的聚类算法对区域人群mtDNA遗传序列信息进行聚类分析,通过研究类群分布规律及各聚类中心之间的距离,统计在各个类群的样本数,计算出各个类群中的人口分布密度;从而对所选区域的人口结构特征作出分析;利用数据库中区域人群mtDNA序列数据,采用遗传算法嵌合K-modes的分析方法,给出定量的mtDNA分子标识的类群结构划分方法,从而分析研究区域人群结构特征,具有较好的聚类效果和稳定性,适用于区域群体大规模mtDNA数据聚类分析。 | ||
搜索关键词: | 一种 基于 mtdna 遗传信息 聚类分析 区域 人口 结构 分析 方法 | ||
【主权项】:
一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法,其特征在于,包括下列步骤:步骤一、选择样本来源:根据数据库资源信息量,选择mtDNA高变I区长度为350bp序列,选择mtDNA高变I区在16026‑16399区间序列,长度为350bp,进行聚类分析,依据数据库提供的原始数据,随机选取所选区域内的人口mtDNA数据在这个区间内具有完整信息的样本100‑200个;步骤二、构建遗传算法的K‑modes聚类嵌合的分析模型:遗传算法以个体适应度的大小来确定该个体被遗传到下一代群体中的概率,在遗传K‑modes算法中,采用聚类紧密度指标作为个体的适应度值,个体S的适应度函数定义为: f ( s ) = 1 n Σ j = 1 , k Σ S i ∈ C j Dist ( S i , Z j ) - - - ( 1 ) 其中Si为类Cj内的元素,Zj为第j类的聚类中心,Dist表示距离度量,步骤三、适应度函数f(s)分析:采用VC++6.0实现遗传算法的K‑modes嵌合模式的程序设计,对所选择区域人类的mtDNA聚类分析,通过50‑120次迭代使f(s)趋于稳定值,根据各区域通过不同的迭代次数使得适应度函数f(s)趋于稳定值,可以判定各区域人群的mtDNA差异度,使适应度函数f(s)趋于稳定值的迭代次数越多,对应的适应度函数f(s)稳定值越小,表明该区域人群的mtDNA差异度越高;步骤四、聚类分析:依据遗传算法的K‑modes嵌合模型算法,对每个区域内所选的人群mtDNA样本进行聚类分析,得到类群分布规律及各聚类中心之间的距离;步骤五、区域人口结构分析:根据聚类分析结果,通过统计在各个类群的样本数占选择的总样本数的百分比从而推算出各个类群中的人口分布密 度,从而对各区域的人口结构作出分析。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210049757.0/,转载请声明来源钻瓜专利网。