[发明专利]结合差异化分析和关联规则挖掘全基因组关键基因的方法有效
申请号: | 201711352644.7 | 申请日: | 2017-12-15 |
公开(公告)号: | CN108038352B | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 杨利英;张粉利;袁细国 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B20/00 |
代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 黄伟洪 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 异化 分析 关联 规则 挖掘 基因组 关键 基因 方法 | ||
1.一种结合差异化分析和关联规则挖掘全基因组关键基因的方法,其特征在于,所述结合差异化分析和关联规则挖掘全基因组关键基因的方法利用基因名与探针名的对应关系,对多探针进行折叠,接着应用差异化分析方法对处理后的基因进行初步筛选,筛选出显著差异表达的基因;对差异基因的所有样本依据阈值将其划分为上调和下调两个事务集,并对两个事务集的基因分别作关联规则挖掘,找出排名靠前的规则对应的基因,为关键基因;通过生物功能分析验证基因的有效性;
所述结合差异化分析和关联规则挖掘全基因组关键基因的方法具体包括以下步骤:
步骤一,对样本数据质量检查,剔除不合格样本;对样本数据做归一化、标准化处理,使得样本数据具有可比性;
步骤二,采取探针折叠对基因芯片采集;
步骤三,利用差异化分析方法筛选差异表达基因,并将p值和差异倍数两个检验值,同时设为筛选阈值,筛选符合条件的显著差异表达基因;
步骤四,对于差异表达基因,基因的表达均值为u,将基因的每个样本值与u的f倍作差值,若结果大于零则将该基因的该样本值标记为up;将每个基因的每个样本值的f倍与u做差值,若小于零则将基因的该样本值标记为down;分别提取每个样本里标记为up的基因构成上调事务集,标记为down的基因构成下调事务集;
步骤五,对上调和下调事务集采用关联规则挖掘算法作关联分析,筛选大于K值的频繁集,最后提取支持度和自信度同时排行靠前的两百三十条规则,将强规则对应的基因视为关键基因,最后采用通路分析和GO富集分析对这些基因的生物功能注释,从生物功能角度诠释这些关键基因的重要性。
2.如权利要求1所述的结合差异化分析和关联规则挖掘全基因组关键基因的方法,其特征在于,所述步骤二探针折叠的具体方法为:依据基因库信息,对所有的探针注释基因名;遍历基因表达矩阵,标记所有彼此基因名相同的探针行,并依据结果将数据拆分成不同的子集,每个子集内的基因名要么全一致,要么全不一致,查看各子集,若基因名一致则以和的均值的形式返回表达值作为该基因的最终表达值;若子集内基因名全不一致,则保留原数据;汇总所有子集。
3.如权利要求1所述的结合差异化分析和关联规则挖掘全基因组关键基因的方法,其特征在于,所述步骤三中的差异化分析方法为ModeratedTstatistic,差异筛选阈值为p值小于0.05且|logFC|=1,保留具有统计意义且表达值变化倍数大于2的基因。
4.如权利要求1所述的结合差异化分析和关联规则挖掘全基因组关键基因的方法,其特征在于,所述步骤四中f值取2。
5.如权利要求1所述的结合差异化分析和关联规则挖掘全基因组关键基因的方法,其特征在于,所述步骤五中的关联规则挖掘算法为Apriori,其中的K值取2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711352644.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于机械手的移动旋转机构
- 下一篇:一种全息灯光脸部采集系统