[发明专利]结合差异化分析和关联规则挖掘全基因组关键基因的方法有效

专利信息
申请号: 201711352644.7 申请日: 2017-12-15
公开(公告)号: CN108038352B 公开(公告)日: 2021-09-14
发明(设计)人: 杨利英;张粉利;袁细国 申请(专利权)人: 西安电子科技大学
主分类号: G16B40/00 分类号: G16B40/00;G16B20/00
代理公司: 西安长和专利代理有限公司 61227 代理人: 黄伟洪
地址: 710071 陕西省*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 结合 异化 分析 关联 规则 挖掘 基因组 关键 基因 方法
【说明书】:

本发明属于数据处理技术领域,公开了一种结合差异化分析和关联规则挖掘全基因组关键基因的方法,首先利用基因名与探针名的对应关系,对多探针进行折叠,接着应用差异化分析方法对处理后的基因进行初步筛选,筛选出显著差异表达的基因;再对差异基因的所有样本依据阈值将其划分为上调和下调两个事务集,并对两个事务集的基因分别作关联规则挖掘,找出排名靠前的规则对应的基因,即关键基因;最后通过生物功能分析验证基因的有效性。本发明综合考虑样本与样本及基因与基因之间的关联,能处理全基因组表达数据,并找出表达突出的关键基因,这对疾病风险预测、复杂疾病的致病机理研究及生物制药技术等都有重要的意义。

技术领域

本发明属于数据处理技术领域,尤其涉及一种结合差异化分析和关联规则挖掘全基因组关键基因的方法。

背景技术

随着基因测序技术的高速发展,生命科学研究获得了强大的数据产生能力,包括基因组学、转录组学、蛋白质组学、遗传代谢组学等生物数据。结合统计学、生物学及计算机科学知识,这些海量数据以揭示其中所蕴藏的生物学奥秘,成为了生物信息学的热点。全基因组基因表达(Genome-Wide Gene Expresison,GWGE)研究是指在特定人群中选择若干统计数目的正常组和病例组样本,在全基因组层面上,比较各基因在正常组和病例组的表达值差异,若某个基因在正常组与病例组的表达值差异过大,则认为该基因与复杂疾病存在着某种关联。全基因组上表达值变化显著突出的基因的发现和识别对疾病风险预测、复杂疾病的致病机理研究和生物药品研制等都有重要的意义。当前,通过GWGE研究已经发现了很多与复杂疾病相关的基因,但是这些已发现的基因中仅有少数能够极好地预测疾病风险并阐释复杂疾病的致病机理,此外还有一些已经在生物实验中证明的与复杂疾病相关的基因未被GWGE研究识别出来。因此,还存在着许多未被发现的基因。这种结果主要有如下三个方面的原因造成:(1)现存的很多研究是基于比较落后的测序技术所测数据,数据本身包含的生物信息不完备,导致实验结论可信度低。(2)目前的GWGE在建模时大多仅考虑基因内样本与样本的关联信息,未考虑样本内基因与基因之间的关联信息,忽略了基因与基因相互影响对复杂疾病造成的影响。(3)重要基因的识别难度大,基因表达值的变化不仅受复杂的遗传信息调控,环境因素的影响也是不可忽略的,此外测序技术也是影响基因表达值变化的一大因素。因此,在样本量很少的情况下很难通过GWGE研究直接将关键基因识别出来。为克服以上问题,研究人员开始关注基因与基因之间的交互作用,在方法层面上深入研究,提出了许多新方法。这些方法可概括为基于网络模型的方法和基于分组的方法。基于网络模型的方法是利用表达数据的相似性构建网络图,图中的节点代表基因,通过筛选网络中的枢纽节点作为关键基因。但是这类方法的难点在于衡量表达之间的相似性,因为基因的表达趋势可能是不规律的,但是现有的拟合趋势方法都是特定的,对基因表达模型存在不完全匹配问题。基于分组的方法是指通过聚类等方法将基因进行分组,通过分析部分组员的特性来推测该组所有成员的性质。基于分组的方法不足在于以偏概全,即以一部分已确定的关键基因来推测与这些基因在同一组内的所有组员都是关键基因,缺乏坚实的事实依据。上述两类方法中,基于网络模型的方法仅利用了基因的样本趋势来拟合基因与基因的关联性,基于分组的方法侧重于基因之间的差异性来推测基因与基因之间的关联性,二者皆未综合考虑样本之间和基因之间的共同作用。针对当前研究存在的这一问题,本发明提出了一种结合差异化分析和关联规则挖掘的全基因组关键基因挖掘方法。差异化分析是一种针对基因芯片数据、通过对对照模型进行差值计算并统计检验来筛选差异对象的方法,用于分析样本之间的关联。差异化分析单独用于基因筛选时,其结果仅类似于两类识别,即区分显著差异的基因和无显著差异的基因,结果保留的基因数目较多,无法进行后续生物实验验证。鉴于此,本专利在差异化分析的基础上,进行关联规则挖掘。关联规则挖掘的目的是寻找数据集中项与项的关系,能够充分利用基因的样本信息来分析基因与基因的关联,进一步筛选基因。

综上所述,现有技术存在的问题是:基因与基因之间交互作用的方法未综合考虑样本之间和基因之间的共同作用,未充分挖掘数据蕴含的信息,其结果无法为后续生物实验提供可靠依据。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711352644.7/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top