[发明专利]多类生物序列注释的整合方法有效
申请号: | 201910411387.2 | 申请日: | 2019-05-17 |
公开(公告)号: | CN110223732B | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 江瑞;宋绍铭 | 申请(专利权)人: | 清华大学 |
主分类号: | G16B30/10 | 分类号: | G16B30/10 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 董永辉;李玉琦 |
地址: | 100084 北京市海淀区1*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种多类生物序列注释的整合方法,包括:从生物测序数据中选取一种生物测序数据作为主要生物序列集,其余的作为辅助生物序列集;建立序列‑基因关联映射集;据基因转录起始点获取该基因的基础关联区域和扩展关联区域;对于主要生物序列集的序列,遍历基因的扩展关联区域,若序列所在的区域和某个基因的扩展关联区域有交集,则建立基因和序列的序列‑基因关联映射;对参考数据应用于序列‑基因关联映射集中的生物序列注释的结果采用超几何检验、二项检验计算显著性;对两种方法得到的注释分别排序,并对相同的注释的排序的序号相加后再次排序作为多种生物序列数据的注释结果。本发明实现综合各种特征的注释,在医疗领域具有应用价值。 | ||
搜索关键词: | 生物 序列 注释 整合 方法 | ||
【主权项】:
1.一种多类生物序列注释的整合方法,其特征在于,包括以下步骤:1)组织数据从同一生物个体的多种方法的生物测序数据中选取一种方法的生物测序数据作为主要生物序列集,其余方法的生物测序数据作为辅助生物序列集;2)建立测序序列与测序序列调控的基因之间的序列‑基因关联映射集;21)对于基因组中每个基因,将基因转录起始点的前后一段预设的距离所组成的区间作为该基因的基础关联区域;22)从每个基因的基础关联区域起止点同时向上游和下游延伸,形成每个基因的扩展关联区域;23)对于主要生物序列集的每一个序列,遍历所有基因的扩展关联区域,如若序列所在区域和某个基因的扩展关联区域有交集,则建立基因和序列的序列‑基因关联映射,从而形成序列‑基因关联映射集;4)统计检验41)根据应用场景从参考数据库中选取参考数据,所述参考数据库包括基因组中每个基因和注释数据的关系;42)根据参考数据进行统计检验,对参考数据应用于序列‑基因关联映射集中的生物序列注释的结果分别采用超几何检验和二项检验进行显著性计算;5)排名输出通过所述超几何检验和二项检验的方法获得参考数据中的每种注释在当前序列‑基因关联映射集下的统计显著性之后,对两种方法得到的注释分别按相同规则排序,并对相同的注释的排序的序号相加后再次排序,作为多种生物序列数据的注释结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910411387.2/,转载请声明来源钻瓜专利网。