[发明专利]应用于组织样本中染色体上转录因子结合位点的检测方法在审

专利信息
申请号: 201711464358.X 申请日: 2017-12-28
公开(公告)号: CN108052797A 公开(公告)日: 2018-05-18
发明(设计)人: 李旦 申请(专利权)人: 上海嘉因生物科技有限公司
主分类号: G06F19/20 分类号: G06F19/20
代理公司: 暂无信息 代理人: 暂无信息
地址: 200000 上海市杨*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及应用于组织样本中染色体上转录因子结合位点的检测方法,包括数据预处理、分割DNA短序列、均值检测和概率检测。与己有的检测算法相比,提高了ChIP‑seq数据的转录因子结合位点识别算法的性能,算法消耗的时间更少,并能准确的识别已有的和新的转录因子结合位点,为转录因子的研究提供了新的技术手段和重要工具。
搜索关键词: 应用于 组织 样本 染色体 转录 因子 结合 检测 方法
【主权项】:
1.应用于组织样本中染色体上转录因子结合位点的检测方法,其特征在于,包括以下步骤:步骤一:数据预处理:首先,读取样本的ChIP-seq数据,并将其比对到参考基因组上,寻找出转录因子结合位点富集的特征峰和峰顶点的位置信息;然后,以所述峰顶点为中心分别向左右两侧延展500bp,延伸后的数据中,每一个DNA序列的中心均为所述峰顶点;最后,将所述DNA序列提取出来并去掉其中重复的序列得到DNA短序列;步骤二:分割DNA短序列:将所述DNA短序列中前N-4个碱基分别依次作为头碱基,将所述头碱基及其之后连续的四个碱基划分为一个子序列,并将所述头碱基在所述DNA短序列的次序作为所述子序列的编号,所述子序列的编号为正整数;所述N是所述DNA短序列中的碱基数量,所述N为正整数;所述子序列中包括五个碱基,所述头碱基是所述子序列中的第一个碱基,所述DNA短序列可以划分出N-4个所述子序列;步骤三:均值检测:分别对四种碱基计算当前碱基均值,所述四种碱基包括A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鸟嘌呤):(1)正在计算的碱基为当前碱基,按照所述子序列的编号,依次统计当前碱基在所述子序列中出现的次数得到均值向量(y1,y2,…,yN-4),其中,y是所述当前碱基在所述子序列中出现的次数,y1是所述当前碱基在编号为1的子序列中出现的次数,y2是所述当前碱基在编号为2的子序列中出现的次数,yN-4是所述当前碱基在编号为N-4的子序列中出现的次数;(2)统计出所述均值向量中取值大于3的元素的个数即为当前碱基均值;对所述四种碱基计算出的所述当前碱基均值进行均值检测:如果四个所述当前碱基均值都在0.8N~1.2N的范围内,则进行步骤四;否则检测结束,所述DNA短序列不是转录因子结合位点;步骤四:概率检测:分别对四种所述碱基计算当前碱基概率,用公式一计算:公式一:其中,G是所述当前碱基概率,为0~1之间的实数,没有单位;σ、μ是方差因子和均值因子,为0~5之间的实数,由检测人员根据经验值确定;i是所述子序列的编号,yi是所述当前碱基在编号为i的子序列中出现的次数;对所述四种碱基计算出的所述当前碱基概率进行概率检测:如果四个所述当前碱基概率取值均小于0.7,则所述DNA短序列不是所述转录因子结合位点;否则,所述DNA短序列是所述转录因子结合位点。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海嘉因生物科技有限公司,未经上海嘉因生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201711464358.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top