[发明专利]一种预测影响长非编码RNA生物学功能的SNP位点的方法有效

申请号：	201810122529.9	申请日：	2018-02-07
公开（公告）号：	CN108319818B	公开（公告）日：	2018-12-07
发明（设计）人：	陈小伟;范珍;陈润生	申请（专利权）人：	中国科学院生物物理研究所
主分类号：	G06F19/22	分类号：	G06F19/22;G06F19/20
代理公司：	北京纪凯知识产权代理有限公司 11245	代理人：	关畅
地址：	100101***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	长非编码RNA 生物学功能功能研究临床应用重要影响显著性预测线索发现
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种预测影响与RNA结合蛋白结合的长非编码RNA的功能的SNP位点的方法，包括如下步骤：

(1)收集整理长非编码RNA数据，构建长非编码RNA数据集；

(2)收集人类基因组SNP位点的注释数据，通过比较SNP位点和长非编码基因的基因组定位，识别位于长非编码基因区的SNP位点；将所述长非编码RNA数据集中的长非编码RNA序列上的所述SNP位点对应的碱基替换为突变后的碱基，构建得到SNP位点碱基突变后的长非编码RNA数据集；

(3)收集RNA结合蛋白的注释数据，构建RNA结合蛋白的motif数据集；

所述motif数据集中包括motif序列，所述motif序列为RNA结合蛋白能够特异识别的RNA序列；

(4)基于极值分布对所述motif序列与所述长非编码RNA数据集中的每个长非编码RNA上的目标序列的相似程度进行评价，得到每个长非编码RNA打分最高的目标序列与所述motif序列相似程度的显著性水平p，并选择显著性水平p低于阈值的长非编码RNA作为SNP位点碱基突变前的所述RNA结合蛋白的靶标长非编码RNA；

所述目标序列是指位于所述长非编码RNA序列上且与所述motif序列长度相等的RNA序列；

假设某长非编码RNA序列长度为N；所述motif序列长度为L，那么在该长非编码RNA序列上就会得出(N-L+1)个目标序列；

(5)基于极值分布对所述motif序列与所述SNP位点碱基突变后的长非编码RNA数据集中的长非编码RNA上的目标序列的相似程度进行评价，得到每个长非编码RNA打分最高的目标序列与所述motif序列相似程度的显著性水平p，并选择相似程度的显著性水平低于阈值的长非编码RNA作为SNP位点碱基突变后的所述RNA结合蛋白的靶标长非编码RNA；

(6)比较所述SNP位点碱基突变前的所述RNA结合蛋白的靶标长非编码RNA和所述SNP位点碱基突变后的所述RNA结合蛋白的靶标长非编码RNA，得到所述影响与RNA结合蛋白结合的长非编码RNA的功能的SNP位点。

2.根据权利要求1所述的方法，其特征在于：以所述长非编码RNA数据集中的任意一个长非编码RNA为例，将其记作长非编码RNA甲，对所述motif序列与所述长非编码RNA甲上的目标序列的相似程度进行评价，得到所述长非编码RNA甲打分最高的目标序列与所述motif序列相似程度的显著性水平p的方法包括如下步骤：

1)针对长非编码RNA甲，构建10000条与所述长非编码RNA甲序列长度相同的随机序列；所述长非编码RNA甲序列长度为N；所述motif序列长度为L；所述N大于等于L；

2)针对每一条随机序列，分别计算(N-L+1)个目标序列与所述motif序列的相似度打分，分别得到(N-L+1)个目标序列与所述motif序列的相似度打分，将最高的相似度打分记作S_max；

所述目标序列是指位于所述随机序列上且与所述motif序列长度相等的RNA序列；

所述目标序列与所述motif序列的相似度打分S的计算公式如下：

其中，是目标序列第j个位置上的碱基与motif序列的相似度打分；

所述目标序列第j个位置上的碱基与motif序列的相似度打分的计算方法如下：对于序列长度为L的目标序列，位于第j个位置的碱基i与motif序列的相似度打分w_i，j的计算公式如下：

其中，i为A、G、C、U；j为1、2、3、……，L；f_i，j是motif序列第j个位置的碱基i出现的频率，P_i是碱基i在人类基因组中出现的频率；

3)同理，按照步骤2)中的方法，计算其他随机序列的最高的相似度打分，共得到10000个最高的相似度打分，并计算所述10000个最高的相似度打分的平均值，将所述平均值记作

4)按照如下公式估计极值分布的参数μ和β：

其中，为S_max的标准差；γ为欧拉-马歇罗尼常数；

5)基于极值分布，按照如下公式计算长非编码RNA甲打分最高的目标序列与所述motif序列相似程度的显著性水平p：

其中，S为长非编码RNA甲所对应的所有目标序列中与motif序列的相似度打分最高者的打分；

同理，得到所述长非编码RNA数据集中的其他长非编码RNA打分最高的目标序列与motif序列相似程度的显著性水平p。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院生物物理研究所，未经中国科学院生物物理研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810122529.9/1.html，转载请声明来源钻瓜专利网。

上一篇：循环肿瘤DNA重复序列的处理方法及装置
下一篇：非编码RNA的预测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学，即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真，例如：概率模型或动态模型，遗传基因管理网络，蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的，例如：进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的，例如：结构排序，结构或功能关系，蛋白质折叠，结构域拓扑，用结构数据的药靶，涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的，例如：基因型–表型关联，不均衡连接，种群遗传学，结合位置鉴定，变异发生，基因型或染色体组的注释，蛋白质相互作用或蛋白质核酸的相互作用

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种预测影响长非编码RNA生物学功能的SNP位点的方法有效

专利文献下载