[发明专利]一种用于计算基因的组织特异表达的鲁棒z-score打分方法有效
申请号: | 201810837091.2 | 申请日: | 2018-07-26 |
公开(公告)号: | CN109243533B | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 李淼新;蒋琳;薛超 | 申请(专利权)人: | 中山大学 |
主分类号: | G16B25/10 | 分类号: | G16B25/10 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 计算 基因 组织 特异 表达 score 打分 方法 | ||
本发明提供了一种用于计算基因的组织特异表达的鲁棒z‑score打分方法,该方法对基因的组织特异表达有更高的敏感度,且能够直接评估统计显著性的特点,解决了现有技术的缺陷。
技术领域
本发明涉及生物学技术领域,更具体地,涉及一种用于计算基因的组织特异表达的鲁棒z-score打分方法。
背景技术
很多人类疾病在病理上准确对应的组织或细胞还不清晰,这个问题长期以来妨碍了医学界对致病机理的更进一步理解。基因在组织中的特异表达谱系对解析组织特异性致病机理非常重要,为治疗和药品研发提供指导和有力依据。随着很多组织和细胞类型基因表达数据的持续积累和增加,迫切需要准确量化基因的组织特异性表达的强大有效的统计方法。
分析基因的组织特异表达图谱能够扩大在生命科学和人类疾病学领域的知识。国际大型的协作项目[1-3],为很多人类组织或细胞型产生转录组,如基因型组织表达项目(GTEx,v7p)发布了52个组织或细胞型的11,688个转录组,并且初步揭示了大量基因在组织中的常规表达情况[4;5]。大量文献也表明基因的组织特异表达会涉及特定组织的致病机理[6]。Antanaviciute等人甚至使用了组织特异基因表达图谱来寻找候选致病基因[7]。虽然这些进展令人鼓舞,但对于探究复杂特异表达模式还仅仅处于起步阶段,大多数与疾病相关基因的致病组织或细胞型仍然难以捉摸[8]。因此,现代生命科学和医学研究急需更好的方法对基于这些丰富基因表达资源进行深入探究基因的组织特异表达特性,进一步解析疾病的组织特异表达机理[9]。
理论上而言,组织特异表达是指基因在一个或少数的几个组织中相对于大多数组织而言较高表达或者较低表达的情况[10]。但是,通常难点就在相对差异量的衡量,因为在实际分析中这种少数与绝大多数(或者众数)的边界是模糊不确定的。比方说,如果误将某个特异表达的组织放进绝大多数组织的这个类就会缩小另外一个特异表达组织与绝大多数组织类的相对差异,从而就会得到一个偏低的特异表达量。目前,有几种度量基因在组织中特异表达的方法[11]。然而,很多早期的方法只能判断一个基因是否有特异表达,而不能度量具体在那些个别的组织中有多少的特异表达[12;13]。后来的方法,可以检测单个组织中具体的特异表达量。但不能对特异表达量进行统计显著性评估。这在实际应用中是很常见的需求。
大体而言,目前求算组织特异性的计算方法主要分为两大类:一类是计算基因是否具有组织特异性(如Tau,Gini,TSI,Counts and Hg),不区分该基因在不同组织中的特异性程度;另一类算法则分别计算基因在每一类组织中的特异性程度(z-score,SPM,EE andPEM)。每类方法在特定的应用场景都具有特定的优势,最近有一项研究分析和比较了以上常用9种组织特异性的算法,在各项测试中,Tau在第一类方法中整体表现效果最好,而如果要确定基因在特定组织的特异性,PEM也能得出可接受的结果。
但在实际应用中,往往需要知道基因在特定组织中的特异性值,故对第二类算法是现在方法学研究的重点。以下是几个常用第二类方法的简单介绍。用xi表示基因x在组织i中的表达量,n表示所用组织的数目。
z-score的算法如下:
μ表示基因表达的平均值,σ表示标准差。
SPM(specificity measure):
EE(expressionenrichment):
PEM(preferential expression measure):
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810837091.2/2.html,转载请声明来源钻瓜专利网。