[发明专利]人类常见病遗传风险评估方法在审
申请号: | 201010294493.6 | 申请日: | 2010-09-28 |
公开(公告)号: | CN102419791A | 公开(公告)日: | 2012-04-18 |
发明(设计)人: | 王一;王颖;金力;黄薇 | 申请(专利权)人: | 上海人类基因组研究中心;复旦大学;上海南方基因科技有限公司 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 上海浦一知识产权代理有限公司 31211 | 代理人: | 丁纪铁 |
地址: | 201203 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人类 常见病 遗传 风险 评估 方法 | ||
技术领域
本发明涉及一种涉及生物医药领域的方法,尤其是一种人类常见病遗传风险评估方法。
背景技术
目前对于疾病风险评估主要技术是逻辑回归Logistic Regression,缩写为LR。
LR的简要模型如下:
;
其中p为个体患病概率,xi为各种风险因素,例如基因缺陷、不良生活习惯等。ai和b都是回归系数。该内容在以下参考文献中有详细描述:Hilbe, Joseph M. (2009). Logistic Regression Models. Chapman & Hall/CRC Press. ISBN 978-1-4200-7575-5。
在LR模型中,事实上假定了:
1. 各个风险因子互相独立;
2. 这些风险因子之间没有交互作用。
而现实的情况常常是:
1. 风险因子之间有相关性,例如所谓的“烟酒不分家”,吸烟的人更有可能饮酒;
2. 风险因子之间有交互作用,例如先天性过敏体质的人,在花粉刺激下会导致哮喘。而两个风险因子单独作用却不易导致哮喘。
因此,传统的LR模型无法很好的在现实条件下进行患病综合风险评估。
随着基因检测技术的进步与普及,如何利用检测到的个人基因信息结合环境暴露情况来评估特定疾病的患病风险已经成为人们关注的热点。现有的逻辑回归的方法并非为患病风险评估定制,无论应用的可行性与风险评估的准确性都无法满足实际需求。疾病风险评估有其自身的特点:疾病特别是复杂疾病牵涉到的因子很多,而且其结果不是个因子的简单累加,使得难以对其建模,从而使得逻辑回归方法效果欠佳。
发明内容
本发明所要解决的技术问题是提供一种人类常见病遗传风险评估方法,能够结合疾病风险评估这一特点,发展出一种能充分利用个人基因信息以及环境暴露情况,但又独立于对疾病机理假设的通用方法来评估患病风险。
为解决上述技术问题,本发明人类常见病遗传风险评估方法的技术方案是,包括如下步骤:
建立一个数据库,该数据库需要包含健康人与病人的流行病学资料,以及在若干遗传相关位点上的基因分型资料;
对于以上资料/变量,根据其与疾病的相关性排序,重要的变量列在前面;
对于一个待检测个体,首先获取其上述各个资料,作为风险评估的依据;
依据变量的重要程度进行数据库匹配:比较数据库中的某样本与待检测样本的第一个变量,如果匹配则继续比较第二个,第三个,直到无法匹配为止;选择数据库中与待检测样本最为匹配的前多个样本;根据这些最匹配的数据库样本中的患者比例估计待检测样本的患病概率,并用群体患病率校正数据库样本采集的偏差。
本发明通过上述方法,不需要对疾病机理有所假设,特别适用于多因子复杂疾病;对风险的评估准确性高;可扩展性好,即随着样本库的增加,风险评估的准确性能持续提高;算法实现容易,速度快。
附图说明
图1为本发明人类常见病遗传风险评估方法中数据库的示意图。
具体实施方式
本发明公开了一种一种人类常见病遗传风险评估方法,结合图1所示,包括如下步骤:
建立一个数据库,该数据库需要包含健康人与病人的流行病学资料,以及在若干遗传相关位点上的基因分型资料;
对于以上资料/变量,根据其与疾病的相关性排序,重要的变量列在前面;
对于一个待检测个体,首先获取其上述各个资料,作为风险评估的依据;
依据变量的重要程度进行数据库匹配:比较数据库中的某样本与待检测样本的第一个变量,如果匹配则继续比较第二个,第三个,直到无法匹配为止;选择数据库中与待检测样本最为匹配的前多个样本;根据这些最匹配的数据库样本中的患者比例估计待检测样本的患病概率,并用群体患病率校正数据库样本采集的偏差。
本发明还包括不断扩大数据库的样本量以及变量数目。
本发明相对于现有的Logisitic Regression方法:
1. 本发明可以对任意多个风险因子的总体效应进行评估,而现有的LR方法只能做数个风险因子的总体效应评估;
2. 本发明在对待监测个体的鉴别率上,本方法显著的好于传统的LR方法。由于前一条原因,在比较两种方法评估效果的时候,无法使用多达上百个因子的实际数据,这里只展示一次模拟4个因子数据的结果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海人类基因组研究中心;复旦大学;上海南方基因科技有限公司,未经上海人类基因组研究中心;复旦大学;上海南方基因科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010294493.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:MOS晶体管的形成方法
- 下一篇:冰箱半导体制冷芯片散热组件
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用