[发明专利]一种基于遗传属性约简的古生物谱系演化分析方法有效
申请号: | 201810161963.8 | 申请日: | 2018-02-27 |
公开(公告)号: | CN108509764B | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 冯筠;杜丽媛;冯宏伟;刘建妮;韩健;王红玉 | 申请(专利权)人: | 西北大学 |
主分类号: | G16B5/00 | 分类号: | G16B5/00;G16B10/00 |
代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 张明 |
地址: | 710069 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 遗传 属性 古生物 谱系 演化 分析 方法 | ||
本发明公开了一种基于遗传属性约简的古生物谱系演化分析方法,该方法的基本步骤包括:建立谱系种树;利用遗传属性约简算法构造谱系种树中每个节点的概念样例模板集合,将其作为决策依据,建立概念决策种树;利用物种属性和种树概念样例模板的匹配度,确定含有缺失数据的物种在谱系种树中的位置;通过自举法,数据重采样得到嫁接物种在谱系树中位置的似然值,完成物种嫁接,构建古生物谱系树。本发明相比最大简约法和属性约简构建谱系树的方法,有效的解决了因大量缺失数据造成的概念样例模板失效以及古生物谱系树难以稳定构建的问题,提高了物种谱系分析的准确率和稳定性。
技术领域
本发明属于生物信息学技术领域,具体涉及一种基于遗传属性的古生物谱系演化分析方法。
背景技术
古生物谱系树的构建是生物信息学重要的组成部分,也是探索生命进化史的主要途径。层次化谱系树细致地展现了物种的演化过程,揭示了物种之间的进化关系和量化差异。早期古生物的谱系分析对生命的起源追溯有着重要的科学意义。
和现生物种研究的基础数据不同,在早期古生物谱系演化分析中,物种数据只能依赖化石的可观察形态数据,但是由于化石发掘现状和可观察数据的受限,得到的物种属性常含有大量的缺失数据,造成谱系树构建困难和不确定性。
针对缺失数据的处理,目前最常用的是最大简约法。最大简约法(MP)对待缺失数据采用所有值填充的方式,随着物种缺失数据比例的增加,填充结果会使可能的谱系树呈指数爆发式的增长,生成谱系树的结构极不稳定,使得谱系树的可信度降低。
针对最大简约法存在的问题,2017年西北大学朱锐提出应用属性约简构建含有缺失数据的谱系树,该方法相比MP在物种平均准确率方面高出10%左右。其中决策点的概念样例模板集合是对含有缺失数据物种进行嫁接的重要依据。决策点中的概念样例模板个数以及每个概念样例模板中属性个数影响着嫁接物种归属判断的准确性和稳定性。但是,该方法在对含有缺失数据的物种进行归属判断时,当对应的属性存在缺失时会使得当前的概念样例模板失效,进而影响物种谱系分析的准确率和稳定性。
发明内容
本发明的目的是提供一种基于遗传属性约简的古生物谱系演化分析方法,通过构建完整的古生物谱系树,以提升谱系分析的准确率和稳定性。
为了实现上述任务,本发明采用以下技术方案:
一种基于遗传属性约简的古生物谱系演化分析方法,包括以下步骤:
步骤一,建立一颗谱系种树;
步骤二,在所述谱系种树中出现分支的位置建立物种节点,并构造所述谱系种树中每个物种节点的概念样例模板集合;将含有概念样例模板集合的节点作为决策点,建立概念决策种树;
步骤三,针对含有缺失数据的物种,从概念决策种树的根决策点出发,通过物种属性与决策点的概念样例模板集合的匹配,对物种进行归属判断;当概念决策种树出现分支时,则判断物种归属于所述分支对应的哪一个子树;归属确定后,从所述物种归属子树的根决策点开始继续进行物种的归属判断;
将含有缺失数据的物种嫁接在最终到达的决策点对应的谱系种树的节点上;
步骤四,以物种属性的完整程度从高到低的顺序进行嫁接,当所有物种都嫁接完成后,则构建完成了一颗完整的古生物谱系树。
进一步地,步骤一种建立谱系种树的方法为,根据古生物学家的先验知识建立,或利用缺失数据比例在5%以下的数据建立。
进一步地,步骤二中所述的概念样例模板集合的构造方法包括:
步骤2.2.1,种群初始化
设染色体大小为物种的属性个数m,染色体中每个基因位点的取值范围为0到m;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810161963.8/2.html,转载请声明来源钻瓜专利网。