[发明专利]一种基于二代测序的T细胞受体库分析方法及装置在审
申请号: | 201810461908.0 | 申请日: | 2018-05-15 |
公开(公告)号: | CN108624667A | 公开(公告)日: | 2018-10-09 |
发明(设计)人: | 金亚彬;罗微;崔金环;陈湘萍;林凯容;毛晓帆;潘英明 | 申请(专利权)人: | 佛山市第一人民医院(中山大学附属佛山医院) |
主分类号: | C12Q1/6869 | 分类号: | C12Q1/6869 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 王国标 |
地址: | 528000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分析方法及装置 测序 比对结果 参考序列 参考坐标 程序语言 调用序列 输出内容 序列比对 非生物 比对 扩增 内核 样本 分析 一体化 | ||
1.一种基于二代测序的T细胞受体库分析方法,其特征在于,所述分析方法包括以下步骤:
步骤1,将测序数据中以3'端开头为引物序列的测序数据筛选出来获得第一序列集;
步骤2,在第一序列集中截取TCR范围内的目标序列片段获得第二序列集;
步骤3,统计第二序列集内每种序列出现的次数并将第二序列集去除重复序列,并按照序列出现的次数从大到小排序获得第三序列集;
步骤4,调用序列比对工具blat将第三序列集中的序列逐个与参考基因组序列进行比对,获取第三序列集中每一序列对应到参考基因组上的位置信息得到第四序列集;
步骤5,根据TCR区域V、J基因的参考坐标注释出第四数据集中的每个片段所在位置的基因信息得到注释后的第五序列集;
步骤6,筛选出第五序列集中同时覆盖TCR区域V、J基因的序列获得第六序列集;
步骤7,将第六序列集中的序列进行核苷酸到氨基酸的密码子翻译后将翻译后的每个序列按照TCRV-CDR3-TCRJ顺序分解成为第七序列集;
步骤8,根据第七序列集中所包含的序列、频数、所在基因信息统计出第七序列集的TCR库的序列数、种类数、分布的香农熵、辛普森指数。
2.根据权利要求1所述的一种基于二代测序的T细胞受体库分析方法,其特征在于,在步骤2中,所述TCR范围需根据PCR引物设计的位置进行设定,其中,所述第一序列集片段是每一条3'端序列去除引物序列后剩余的序列片段,所述TCR范围可由用户根据实际情况自由定义。
3.根据权利要求1所述的一种基于二代测序的T细胞受体库分析方法,其特征在于,在步骤3中,将第二序列集按照每个序列出现的次数排序获得第三序列集的方法为:将第二序列集中完全相同的序列合并的同时计数,形成一个2列的表格,其中一列为第三序列集,另一列为该序列出现的次数。
4.根据权利要求1所述的一种基于二代测序的T细胞受体库分析方法,其特征在于,在步骤4中,所述参考基因组序列为TCR公共数据库中公布的人基因组上TCR区域的DNA参考序列,其中,实验数据来自于人基因组TCR的α链为TCRA,来自于人基因组TCR的β链为TCRB。
5.根据权利要求1所述的一种基于二代测序的T细胞受体库分析方法,其特征在于,在步骤5中,根据TCR基因的参考坐标注释出第四数据集中每个片段所在位置的基因信息得到注释后的第五序列集的方法为:根据TCR区域V、J基因的参考坐标每个位置对应的基因名字获取第四数据集中每个片段所在位置的基因信息,其中,参考坐标是TCR公共数据库中公布的各个V,J基因的位置信息。
6.根据权利要求1所述的一种基于二代测序的T细胞受体库分析方法,其特征在于,在步骤7中,所述将翻译后的每个序列按照TCRV-CDR3-TCRJ顺序分解成为第七序列集的方法为:CDR3区域的定义为以C开头FGXG结尾的氨基酸序列片段,提取及整合CDR3区域中以C开头、以FGXG的F结尾的氨基酸序列获得第七序列集,其中,所述TCRV-CDR3-TCRJ顺序为将每个翻译后的序列都分为TCRV、CDR3、TCRJ前中后三段的顺序,所述TCRV为前段V区域,CDR3为中段CDR3区域,TCRJ为后段J区域,所述CDR3区域的头端为半胱氨酸,末端为FGXG的特征序列,F表示苯丙氨酸,G表示甘氨酸,X表示任意氨基酸。
7.一种基于二代测序的T细胞受体库分析装置,其特征在于,所述装置包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序以执行在以下装置的单元中:
获取单元,用于将测序数据中以3’端开头为引物序列的测序数据筛选出来获得第一序列集;
片段截取单元,用于在第一序列集中截取TCR范围内的第一序列集片段获得第二序列集;
排序计数单元,用于统计第二序列集内每种序列出现的次数并将第二序列集去除重复序列,并按照序列出现的次数从大到小排序获得第三序列集;
序列比对单元,用于调用序列比对工具blat将第三序列集中的序列逐个与参考基因组序列进行比对,获取第三序列集中每一序列对应到参考基因组上的位置信息得到第四序列集;
注释单元,用于根据TCR区域V、J基因的参考坐标注释出第四数据集中的每个片段所在位置的基因信息得到注释后的第五序列集;
质控筛选单元,用于筛选出第五序列集中同时覆盖TCR区域V、J基因的序列获得第六序列集;
提取整合单元,用于将第六序列集中的序列进行核苷酸到氨基酸的密码子翻译后将翻译后的每个序列按照TCRV-CDR3-TCRJ顺序分解成为第七序列集;
数据统计单元,用于根据第七序列集中所包含的序列、频数、所在基因信息统计出第七序列集的TCR库的序列数、种类数、分布的香农熵、辛普森指数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佛山市第一人民医院(中山大学附属佛山医院),未经佛山市第一人民医院(中山大学附属佛山医院)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810461908.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于构建测序文库的接头核酸分子
- 下一篇:用于基因组组装及单体型定相的方法