[发明专利]一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法无效
申请号: | 201210049757.0 | 申请日: | 2012-02-29 |
公开(公告)号: | CN102629255A | 公开(公告)日: | 2012-08-08 |
发明(设计)人: | 张虎勤;刘芳娥;吴晓明;杜建强;夏娟娟;刘晓刚;郭燕 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/12 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 弋才富 |
地址: | 710048*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 mtdna 遗传信息 聚类分析 区域 人口 结构 分析 方法 | ||
技术领域
本发明涉及遗传信息研究区域人口结构的技术领域,特别涉及一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法。
背景技术
人口结构和组成与结构,通常是以民族、性别、年龄等因素为指标进行宏观统计学分析和汇总,对人口结构的认识停留在直观信息的统计分析上,存在工作量大,统计信息误差大等缺点。尝试从分子水平和基因序列信息表征区域人口的结构和特征,使区域人口打上分子特征标示,为区域人口成分界定和类群界定提供新的技术通道已经成为研究的热点。
发明内容
为了克服上述现有技术的缺陷,本发明的目的在于提供一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法,用遗传算法和k-modes模型嵌合的聚类算法对区域人群mtDNA序列进行聚类分析,实现对区域人口结构进行类群标识和类群结构划分,以mtDNA多态性位点标识人口类别聚类分析方法力求提高遗传算法收敛速度搜索性能,达到高稳定性的聚类分析结果。
为了实现上述任务,本发明采取如下的技术解决方案:
一种基于mtDNA遗传信息聚类分析的区域人口结构分析方法,包括下列步骤:
步骤一、选择样本来源:根据数据库资源信息量,选择mtDNA高变I区长度为350bp序列,选择mtDNA高变I区在16026-16399区间序列,长度为350bp,进行聚类分析,依据数据库提供的原始数据,随机选取所选区域内的人口mtDNA数据在这个区间内具有完整信息的样本100-200个;
步骤二、构建遗传算法的K-modes聚类嵌合的分析模型:
遗传算法以个体适应度的大小来确定该个体被遗传到下一代群体中的概率,在遗传K-modes算法中,采用聚类紧密度指标作为个体的适应度值,个体S的适应度函数定义为:
其中Si为类Cj内的元素,Zj为第j类的聚类中心,Dist表示距离度量,
所述的基于遗传算法的K-modes模型算法执行步骤为:
一、初始化种群,使每个个体表示一种分类方案,并对其进行编码;
二、从种群中选择一个个体,对序列对象进行编码,对编码后的序列对象进行聚类;
三、通过公式(1)计算聚类结果的聚类内紧密度值,并将该值作为个体的适应度值返回;
四、有未被选择的个体则返回到步骤(二);如果种群中所有个体都被选择过,通过循环语句判断算法是否已完成规定的f(s)迭代次数,若已完成规定的f(s)迭代次数则转到步骤(六);否则进入到步骤(五);
五、根据各个体的适应度值和遗传算法的参数采用精英保留策略,选择出适应度最高的个体,利用随机概率选择个体,通过交叉运算和变异运算的相互配合来优化种群,并返回到步骤(二);
六、输出最终结果,退出;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210049757.0/2.html,转载请声明来源钻瓜专利网。