[发明专利]多类生物序列注释的整合方法有效
申请号: | 201910411387.2 | 申请日: | 2019-05-17 |
公开(公告)号: | CN110223732B | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 江瑞;宋绍铭 | 申请(专利权)人: | 清华大学 |
主分类号: | G16B30/10 | 分类号: | G16B30/10 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 董永辉;李玉琦 |
地址: | 100084 北京市海淀区1*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生物 序列 注释 整合 方法 | ||
本发明公开了一种多类生物序列注释的整合方法,包括:从生物测序数据中选取一种生物测序数据作为主要生物序列集,其余的作为辅助生物序列集;建立序列‑基因关联映射集;据基因转录起始点获取该基因的基础关联区域和扩展关联区域;对于主要生物序列集的序列,遍历基因的扩展关联区域,若序列所在的区域和某个基因的扩展关联区域有交集,则建立基因和序列的序列‑基因关联映射;对参考数据应用于序列‑基因关联映射集中的生物序列注释的结果采用超几何检验、二项检验计算显著性;对两种方法得到的注释分别排序,并对相同的注释的排序的序号相加后再次排序作为多种生物序列数据的注释结果。本发明实现综合各种特征的注释,在医疗领域具有应用价值。
技术领域
本发明涉及生物技术领域,具体地说,涉及多类生物序列注释的整合方法。
背景技术
基因测序是一种新型基因检测技术,能够从血液或唾液中分析测定基因全序列。伴随着生物医学技术的发展,在精准医疗领域,通过测序等方法来对患者进行分析、从而实现精准治疗的技术也已经日趋完善。然而,由于市面上的众多测序方法缺乏统一的标准,它们面向的位点以及数据分布特性具有非常大的区别,这也制约了精准诊断领域的进一步发展。针对这一问题,尝试整合多类数据,对各种测序的序列区域进行功能、特性等方面的注释,从而进行进一步的分析和诊断,是一种有效的解决方案。然而在产业界中很少有技术尝试来解决该类问题,主要原因有以下几点:1.各种测序数据测得的结果分布和数据质量有很大区别,缺少一个有效的规则将所有数据整合处理。2.在进行数据整合的过程中,需要有一套量化尺度作为整合中的判据,进而需求一种有效的算法来量化不同类别的测序数据。3.大量的测序序列位于没有先验功能标注的区域,缺少足够的注释知识。
发明内容
为解决以上问题,本发明提供一种多类生物序列注释的整合方法,包括以下步骤:
1)组织数据
从同一生物个体的多种方法的生物测序数据中选取一种方法的生物测序数据作为主要生物序列集,其余方法的生物测序数据作为辅助生物序列集;
2)建立测序序列与测序序列调控的基因之间的序列-基因关联映射集;
21)对于基因组中每个基因,将基因转录起始点的前后一段预设的距离所组成的区间作为该基因的基础关联区域;
22)从每个基因的基础关联区域起止点同时向上游和下游延伸,形成每个基因的扩展关联区域;
23)对于主要生物序列集的每一个序列,遍历所有基因的扩展关联区域,如若序列所在区域和某个基因的扩展关联区域有交集,则建立基因和序列的序列-基因关联映射,从而形成序列-基因关联映射集;
4)统计检验
41)根据应用场景从参考数据库中选取参考数据,所述参考数据库包括基因组中每个基因和注释数据的关系;
42)根据参考数据进行统计检验,对参考数据应用于序列-基因关联映射集中的生物序列注释的结果分别采用超几何检验和二项检验进行显著性计算;
5)排名输出
通过所述超几何检验和二项检验的方法获得参考数据中的每种注释在当前序列-基因关联映射集下的统计显著性之后,对两种方法得到的注释分别按相同规则排序,并对相同的注释的排序的序号相加后再次排序,作为多种生物序列数据的注释结果。
此外,优选地,还包括步骤3)根据辅助生物序列集的量化值对序列-基因关联映射进行修正优化,包括以下步骤:
31)对于基因组上的各基因的基础关联区域,遍历基础关联区域中所有位点计算辅助生物序列集的生物序列在各位点的量化值,取量化值的最大值作为所述基础关联区域的辅助生物序列集量化值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910411387.2/2.html,转载请声明来源钻瓜专利网。