[发明专利]一种非编码RNA调控疾病风险靶通路的识别方法及系统有效
申请号: | 202010641994.0 | 申请日: | 2020-07-06 |
公开(公告)号: | CN111899788B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 张云鹏;许艳军;李峰;李霞 | 申请(专利权)人: | 李霞;张云鹏;许艳军 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B20/30;G16B50/00 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 崔玥 |
地址: | 150081 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 编码 rna 调控 疾病 风险 通路 识别 方法 系统 | ||
1.一种非编码RNA调控疾病风险靶通路的识别方法,其特征在于,所述识别方法包括如下步骤:
从数据库中获取非编码RNA数据、蛋白编码基因表达数据、非编码RNA与蛋白编码基因的相关分子关联数据、蛋白质相互作用数据及生物学通路数据;
利用DEGSeq算法识别非编码RNA数据中的存在疾病的非编码RNA和不存在疾病的非编码RNA数据的显著性小于显著性阈值的非编码RNA,作为失调非编码RNA;
利用失调非编码RNA和所述蛋白编码基因的相关分子关联数据,确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因;
利用皮尔森相关性评估算法,从候选蛋白质编码基因中选出失调非编码RNA关联的蛋白质编码基因,作为调控关联蛋白质编码基因;
计算每个调控关联蛋白质编码基因对失调非编码RNA的失调程度影响的权重;
以调控关联蛋白质编码基因为种子节点,以调控关联蛋白质编码基因对非编码RNA的失调程度影响的权重为输入,采用随机游走算法对利用蛋白质相互作用数据构建的蛋白质编码基因互作网络的每个蛋白质编码基因进行打分;
根据每个蛋白质编码基因的分数,采用网络识别算法,确定失调非编码RNA影响的生物学通路中的候选风险靶通路区域;
采用超几何检验方法从所述候选风险靶通路区域中选出失调非编码RNA影响的生物学通路中的风险靶通路;
所述利用DEGSeq算法识别非编码RNA数据中的存在疾病的非编码RNA和不存在疾病的非编码RNA数据的显著性小于显著性阈值的非编码RNA,作为失调非编码RNA,具体包括:
从非编码RNA数据中获取非疾病组织的非编码RNA样本数据和疾病组织非编码RNA样本数据;
对非疾病组织的非编码RNA样本数据和疾病组织非编码RNA样本数据进行基因组位置映射、区间长度标准化和数据标准化处理,获得非疾病组织的非编码RNA样本数据的高通量表达谱和疾病组织非编码RNA样本数据的疾病高通量转录谱;
利用DEGSeq算法对所述高通量表达谱和所述疾病高通量转录谱进行识别,计算非疾病组织的非编码RNA样本数据与疾病组织非编码RNA样本数据中的每个相对应位置的非编码RNA的显著性;
选取显著性小于显著性阈值的位置非编码RNA,作为失调非编码RNA;
所述利用失调非编码RNA和所述蛋白编码基因的相关分子关联数据,确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因,具体包括:
根据蛋白编码基因的相关分子关联数据,构建非编码RNA-蛋白质编码基因的关联互作网络;
根据所述关联互作网络确定蛋白编码基因表达数据中失调非编码RNA关联的候选蛋白质编码基因;
所述利用皮尔森相关性评估算法,从候选蛋白质编码基因中选出失调非编码RNA关联的蛋白质编码基因,作为调控关联蛋白质编码基因,具体包括:
利用公式计算每个候选蛋白质编码基因在疾病状态下的皮尔森相关系数r;
其中,n为疾病样本数目,Xi为蛋白编码基因X在第i个疾病样本中的表达值,Xu为蛋白编码基因X在n个疾病样本中的表达值的均值,Yi为失调非编码RNA Y在样本i中的表达值,Yu为失调非编码RNA Y在N个疾病样本中的表达值的均值;
基于t检验算法计算失调非编码RNA与每个候选蛋白质编码基因的相关性显著性P值;
选取皮尔森相关系数r的绝对值大于0.1且相关性显著性P值小于0.05的候选蛋白质编码基因,作为失调非编码RNA关联的蛋白质编码基因。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于李霞;张云鹏;许艳军,未经李霞;张云鹏;许艳军许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010641994.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种钢结构件安装定位工具
- 下一篇:一种热倒母操作母线刀闸检测方法和装置