[发明专利]基于临床样本的染色质可及性数据分析方法有效
申请号: | 202010843055.4 | 申请日: | 2020-08-20 |
公开(公告)号: | CN111951896B | 公开(公告)日: | 2023-10-20 |
发明(设计)人: | 方靖文;瞿昆;李杨;朱连邦 | 申请(专利权)人: | 杭州瀚因生命科技有限公司 |
主分类号: | G16B30/10 | 分类号: | G16B30/10 |
代理公司: | 杭州裕阳联合专利代理有限公司 33289 | 代理人: | 司晓蕾 |
地址: | 311200 浙江省杭州市萧山*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 临床 样本 染色质 数据 分析 方法 | ||
1.一种基于临床样本的染色质可及性数据分析方法,其特征在于,包括:
S100,设定多个样本组,每个样本组包括多个临床样本;
S200,获取每一个临床样本经ATAC-seq测序后输出的原始测序文件;
S300,对所述原始测序文件进行数据处理,并对经数据处理后的原始测序文件进行质量控制分析,生成测序质量控制分析结果,并将所述测序质量控制分析结果可视化;
S400,获取每一个样本组的开放区域,并对每一个样本组的染色质开放区域进行信息注释;
S500,依据每一个样本组的开放区域,对多个样本组之间进行差异性分析、聚类分析、以及多组间相似性分析;
S600,依据所述步骤S500的分析结果,进行转录因子的富集分析,寻找富集的转录因子;
S700,选取与预设研究方向相关的转录因子,并对其进行结合印记分析;
S800,对每一个临床样本的原始测序文件进行去卷积化,获取每一个临床样本中,不同种类细胞的细胞数量占细胞总数的百分比;
S900,对每一个临床样本的原始测序文件进行CNV分析,获取不同临床样本之间的DNA片段差异信息,并将不同临床样本之间的DNA片段差异信息可视化。
2.根据权利要求1所述的基于临床样本的染色质可及性数据分析方法,其特征在于,所述步骤S300包括:
S310,选取一个临床样本的原始测序文件,去除该原始测序文件中adapter序列,并对去除adapter序列后的原始测序文件进行染色质比对和格式转换,生成测序信息文件;
S320,对所述测序信息文件进行转录起始位点富集分析和测序片段分布分析,生成所述临床样本的转录起始位点富集分析图和测序片段分布分析图;
S330,基于染色质比对的结果,生成染色质比对结果可视化图;
S340,反复执行所述步骤S310至步骤S330,生成每一个临床样本的测序信息文件、转录起始位点富集分析图、测序片段分布分析图和染色质比对结果可视化图;
S350,将一个样本组中的多个临床样本的测序信息文件合并为一个组测序信息文件,对所述组测序信息文件进行转录起始位点富集分析和测序片段分布分析,生成所述样本组的转录起始位点富集分析图和测序片段分布分析图;
S360,反复执行所述步骤S350,生成每一个样本组的组测序信息文件、转录起始位点富集分析图和测序片段分布分析图。
3.根据权利要求2所述的基于临床样本的染色质可及性数据分析方法,其特征在于,所述步骤S400包括:
S410,基于每一个样品组的组测序信息文件,利用MACS2算法,获取每一个样本组的多个潜在染色质开放区域;
S420,基于倍数差异参数、染色质开放区域P_value和FDR中的一种或多种参数,从多个潜在染色质开放区域中筛选出染色质开放区域;
S430,将所有样本组的染色质开放区域合并,生成开放区域列表;
S440,计算每一个临床样本在每一个染色质开放区域上的测序读长数目,生成第一读长数目矩阵;
其中,H为第一读长数目矩阵,M为染色质开放区域的序号,N为样本的序号,XMN为第N个样本在第M个染色质开放区域上的测序读长数据;
S450,对每一个样本组的染色质开放区域进行位置注释和基因组功能注释,生成染色质开放区域注释图;所述位置注释包括启动增强子注释、异染色质区域注释和功能注释注释中的一种或多种;所述基因组功能注释通过GREAT算法注释基因功能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州瀚因生命科技有限公司,未经杭州瀚因生命科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010843055.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于超导磁体系统的气体排放系统
- 下一篇:一种静电闪光式车轮