[发明专利]一种粪便基因标志物的筛选及应用有效

申请号：	201810227886.1	申请日：	2018-03-20
公开（公告）号：	CN109658980B	公开（公告）日：	2023-05-09
发明（设计）人：	肖勤;钱逸维;陈生弟;杨晓东;徐绍卿	申请（专利权）人：	上海交通大学医学院附属瑞金医院
主分类号：	G16B20/20	分类号：	G16B20/20;G16B40/00
代理公司：	上海伯瑞杰知识产权代理有限公司 31227	代理人：	曹莉
地址：	200025 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种粪便基因标志筛选应用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种粪便基因标志物的筛选方法，包括如下步骤：

(1)收集帕金森病患者与其健康配偶的粪便，于-20～-80℃下保存；

(2)提取(1)中粪便基因DNA；

(3)鸟枪法测序后进行生物信息分析，建立参考基因集，从帕金森病患者和健康配偶的差异基因中筛出目的基因序列用作基因标志物,进行受试者工作特征(receiveroperating characteristic,ROC)曲线分析，明确其疾病区分能力，具体方法包括如下：

S1：粪便基因DNA的质检:利用ThermoNanoDrop 2000紫外微量分光光度计和1～3％琼脂糖凝胶电泳进行总DNA质检；

S2：基因DNA片段化：

1)在1.5mL LoBind管中，用1X Low TE Buffer稀释30ng～1000ng高质量的基因组DNA至120～150μL；

2)转移稀释后的基因组DNA至微型管；

3)将微型管置于Covaris Tube Holder中，用Covaris S2系统超声打断DNA，设置参数如下：占空比10～15％，强度4～5，每周期循环次数200～250次，时间50-60秒，模式为扫频，温度为6～8℃；

4)转移超声后的样本真空浓缩至50μL，获得DNA片段浓缩液，所述DNA片段长度为500～600bp；

S3：文库构建与质检:对基因组DNA进行片段化，末端修复、3’末端加A、连接接头、富集步骤，完成测序样本文库构建，所建文库使用2.0Fluorometer检测浓度，Agilent2100检测文库的大小；

S4：DNA片段测序：按照cBot User Guide所示相应流程，在Illumina HiSeq测序仪配套的cBot上完成Cluster生成和第一向测序引物杂交；测序平台为Illumina HiSeq Ten，按照Illumina User Guide准备测序试剂，将携有cluster的flow cell上机，选用paired-end程序，进行双端测序，测序过程由Illumina提供的data collection software进行控制，并进行实时数据分析，去除Adaptor接头序列不合格的reads，去除包含N碱基数目≥3的reads，对序列3’端进行截切，去掉质量值＜20的碱基，并过滤截切后长度＜60％原长的reads；通过SOAPaligner比对宿主基因组，将宿主污染的reads剔除，获得cleanreads；

S5：序列拼接组装与基因预测：使用metaSPAdes软件对cleanreads进行拼接，采用不同大小的Kmer(21，33，55)对过滤后的数据进行组装，在scaffolds内部gap处，将scaffolds重新打断成新的scafting，去除长度小于500bp的cleanreads，从不同Kmer的组装结果中选择N50最大的组装结果，利用软件MetaGeneMark对组装结果进行开放阅读窗的预测，然后根据得到的.gff注释文件还原成.fna基因序列文件，并从中筛选出长度大于100bp的基因序列，并翻译成对应的氨基酸序列；

S6：基因集构建：利用CD-HIT将所有预测出来的基因聚类，其中确认度95％，覆盖度90％，选择每一类中最长的基因序列后去除其余冗余基因，从NCBI数据库下载来自中国东部及南方的II型糖尿病和肝硬化项目的肠道基因宏基因组基因，构建全新的基因集，去除少于2条cleanreads支持的基因，获得非冗余基因集；

S7：基因初步筛选：绘制了基因数量与非零样本数量的关系图，根据基因数量与非零样本数量的关系图确定非零数量后进行初步基因筛选，获得基因集合；

S8：基因丰度及差异基因统计检验：通过SOAPaligener将cleanreads比对上非冗余基因集，根据每个基因被比对上的cleanreads条数与基因的长度，可以计算得到每个基因在样品中的相对丰度，然后根据此相对丰度，通过Wilcoxon秩和检验来计算每个基因在帕金森病组和健康配偶对照组的差异，获得差异基因合集，P0.05；

S9：差异基因聚类分析：根据Wilcoxon秩和检验得到帕金森病患者和健康配偶中差异基因集合，进行基因聚类分析(metagenomic species,MGS)聚类，计算两两基因在所有样本中丰度值的Pearson相关系数，利用single-linkage聚类算法，要求其类内相关系数不小于0.9，类间相关系数不大于0.1，得到MGS聚类，MGS聚类按照：a)包含基因数目不小于50个；b)根据genome库注释到同一genus；c)genus注释率大于90％，筛选得到MGS组；

S10：基因标志物的筛选：将MGS组利用最小冗余最大相关算法筛选得到显著基因，再用择优选取算法，每次从剩余显著基因集合中选择能够提高分类效果的基因，直至分类效果不能提升为止，获得基因标志物；

所述最小冗余最大相关算法包括如下内容：

i)减少标记基因的冗余度：两两备选标记基因的相关性指标之和最小化；

ii)加强标记基因的预测能力：标记基因在帕金森病组/健康配偶组下的差异性指标之和最大化；

所述择优选取算法包括如下内容：

a.先从显著基因集合中，选择预测能力最佳的一个基因，作为所选特征；

b.再从剩余显著基因集合中，选择一个基因，加入到所选特征集合中，使得所选特征集合的预测能力最佳；

c.重复步骤b，直到预测能力不再提高；输出所选特征集合；

所述预测能力评估方法包括如下内容：

以线性判别分析作为分类算法，用留一交叉检验下计算得到的Matthew相关系数作为所选特征预测能力的判断依据。其中Matthew相关系数MCC的公式如下：

其中TP是真阳性的数量，TN是真阴性的数量，FP是假阳性的数量，FN是假阴性的数量；

S11：标志物区分能力验证：将基因标志物构建训练支持向量机模型，绘制ROC曲线，同时将基因标志物检测结果整合为一个帕金森病指数(Parkinson’sdisease index,PDI)，每个样本j的PDI，即I_j计算公式如下: