[发明专利]一种能够识别EpCAM蛋白的核酸适体及其制备方法与应用有效
申请号: | 201910850939.X | 申请日: | 2019-09-10 |
公开(公告)号: | CN110592093B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 杨朝勇;宋彦龄;宋佳;郑媛 | 申请(专利权)人: | 上海交通大学医学院附属仁济医院 |
主分类号: | C12N15/115 | 分类号: | C12N15/115;C12N5/09;G16B40/00;G16B40/30;G01N33/68;G01N33/574 |
代理公司: | 上海申汇专利代理有限公司 31001 | 代理人: | 翁若莹 |
地址: | 200001 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 能够 识别 epcam 蛋白 核酸 及其 制备 方法 应用 | ||
1.一种能够识别EpCAM蛋白的核酸适体的筛选方法,其特征在于,包括以下步骤:
步骤1:筛选上皮细胞粘附分子EpCAM特异结合的核酸适体文库;
步骤2:基于模式序列搜索,对步骤1筛选得到的上皮细胞粘附分子EpCAM特异结合的核酸适体文库进行过滤;基于k-mer的频率分布和扩增倍数分布,k-mer为k长的连续碱基片段,对核酸文库测序数据进行筛选,得到具有富集/富集趋势的k-mer集合;然后设计打分公式,通过权衡频率和扩增信息,对筛选得到的具有富集/富集趋势的k-mer集合中的k-mer打分,得到Scorek-mer,基于Scorek-mer,设计过滤分值FilterScoreaptamer公式,根据用户定义的域值,过滤掉不具有模式序列的序列;所述打分公式如下:
k-mer(i)为第i个k-mer,i=1,2,3....n;
所述过滤分值FilterScoreaptamer公式如下:
Filter Scoreaptamer(i)=max(scorek-mer(j)|k-mer(j)∈Saptamer,Saptamer由aptamer包含的所有k-mer组成)
aptamer(i)为第i个aptamer,i=1,2,3....n;
利用k-mer的频率分布,筛选具有富集/富集趋势的k-mer集合,即在文库中出现的高频k-mer,定义为set1,此处高频k-mer的选择为在各轮文库中频率高于预先定义的对照文库频率分布中95%分位线的k-mer;绘制k-mer扩增倍数分布,筛选与set1同样大小的k-mer集合set2,其由具有最大扩增倍数的k-mer组成;
步骤3:利用无监督学习,对步骤2过滤后的核酸文库测序数据进行文库序列家族高效分类;通过对步骤2过滤后得到的所有核酸适体序列进行两两比对,利用BLASTshort进行所有核酸适体序列比对打分,基于比对分值构建核酸相关性图谱,其中,权重Weightedge(ab)为归一化后的比对得分,利用马尔可夫聚类算法(MCL)进行家族分类;
所述权重的计算公式如下:
其中,bitscore为BLAST比对算法输出的比对得分;a,b代表任意两个顶点;
步骤4:基于步骤3的文库序列家族分类结果,进行核酸适体二级子结构/模式序列含量Kscore评估;基于步骤3的家族分类结果,选择每个家族中最高频核酸作为代表序列,根据步骤2所得的k-mer得分,计算该代表序列对应的Kscore,即为核酸家族Kscore;所述核酸家族Kscore的计算公式如下:
Kscoreaptamer(i)=∑scorek-mer(j),k-mer(j)∈Saptamer(i)
其中,Kscoreaptamer为每个核酸家族代表序列的二级子结构/模式序列总体富集程度,随后即将代表序列的Kscoreaptamer作为核酸家族Kscore;
步骤5:基于步骤3的文库序列家族分类结果,根据家族大小,进行核酸适体家族富集程度Fscore评估;核酸家族富集程度Fscore的计算公式如下:
其中,familly(i)代表第i个家族,i=1,2,3....n;Fsize为家族大小,mean为平均家族大小;
步骤6:基于二级结构最小自由能和G四聚体结构预测,对步骤3的文库序列家族分类结果进行核酸适体二级结构稳定性Sscore评估;利用mfold或者RNAfold进行核酸适体二级结构最小自由能(dG)推导,利用QGRS进行核酸适体是否为G四聚体的可能性(GS)计算,权衡最小自由能和GS得分得到Sscore;
所述Sscore的计算公式如下:
其中,familly(i)代表第i个家族,i=1,2,3....n;raptamer代表每个核酸适体家族的最高频序列;
步骤7:利用多维度分析框架,从二级子结构/模式序列含量Kscore、核酸适体家族富集程度Fscore、二级结构稳定性Sscore三个方面对功能核酸进行全面评估和权衡,识别得到能够识别EpCAM蛋白的核酸适体;选取Kscore、Fscore、Sscore中较大的两个分值,进行加和平均得到最终的MDA-score用于评估功能核酸的性能,MDA-score分值越高,认为其靶标结合可能性越大;所述MDA-score的计算公式如下:
其中,min_score代表三个分值中的最小值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学医学院附属仁济医院,未经上海交通大学医学院附属仁济医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910850939.X/1.html,转载请声明来源钻瓜专利网。