[发明专利]一种基于RNA测序的癌症溯源方法在审

专利信息
申请号: 202211567334.8 申请日: 2022-12-07
公开(公告)号: CN115798594A 公开(公告)日: 2023-03-14
发明(设计)人: 方韩;俞容山 申请(专利权)人: 厦门大学
主分类号: G16B40/00 分类号: G16B40/00;G16B30/00;G06F18/2415;G06N3/0464;G06N3/0455;G06N3/08
代理公司: 厦门致群财富专利代理事务所(普通合伙) 35224 代理人: 巫其荣
地址: 361000 *** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 rna 癌症 溯源 方法
【权利要求书】:

1.一种基于RNA测序的癌症溯源方法,其特征在于,包括以下步骤:

S1、获取癌症数据中的TCGA FRESH数据、TCGA FFPE数据和TCGA METASTATIC数据,并对癌症数据进行预处理;

S2、基于transformer模型搭建癌症溯源网络模型;

S3、采用预处理后的TCGAFRESH数据,对癌症溯源网络模型进行训练,得到训练后的癌症溯源网络模型;

S4、将预处理后的TCGAFFPE数据和TCGAMETASTATIC数据作为测试数据,将两个测试数据集分别送入训练后的癌症溯源网络模型中,对癌症进行分类溯源。

2.如权利要求1所述的一种基于RNA测序的癌症溯源方法,其特征在于,步骤S1的具体过程为:

S11、从肿瘤基因组图谱TCGA中,获取TCGAFRESH数据、TCGAFFPE数据和TCGAMETASTATIC数据,癌症类型一共为32种;其中,TCGAFRESH数据和TCGA FFPE数据采样来自原发灶,TCGAMETASTATIC数据采样来自转移灶,三种数据的格式都为FPKM;

S12、对于每个基因g,如果有一半以上的样本的基因g的表达值为0,则将该基因g删除;再对处理后的所有样本的基因数据进行log转换,具体操作为log(t+1),得到转换后的数据,其中t为基因g的表达值;

S13、对每个癌型分配一个标签,一共有32种癌型,标签数从0到31,每个癌型对应一个数字标签;

S14、标签分配好后,根据每个样本所属的癌型为每个样本分配标签。

3.如权利要求2所述的一种基于RNA测序的癌症溯源方法,其特征在于:步骤S11中所述TCGAFRESH数据、TCGAFFPE数据和TCGAMETASTATIC数据的样本数分别为9697、246和391。

4.如权利要求3所述的一种基于RNA测序的癌症溯源方法,其特征在于,步骤S2的具体过程为:

S21、使用一维卷积对RNA测序数据进行处理,将原始RNA数据x转换为适合transformer模型处理的数据xe,其中,x∈R1xW,xe∈RNxP,W为基因个数,P为每个嵌入表示的维数,为256维,N=W/P,每个卷积得到的结果为嵌入表示;

S22、将可学习的类别嵌入表示与卷积得到的嵌入表示进行拼接;

S23、将拼接后的嵌入表示与对应的位置嵌入表示进行相加,保留位置信息,得到输入数据;

S24、将输入数据输入到编辑器Transformer Encoder中,编辑器Transformer Encoder由多头自注意力模块和MLP模块组成,并在这两个模块前应用Layernorm操作,且每个模块都用残差连接,编辑器Transformer Encoder的层数一共为4层,

S25、得到可学习的类别嵌入表示在编辑器Transformer Encoder对应的输出表示,将得到的结果输入到两层全连接网络中,获得32维输出,每维为各个癌症类别的概率,利用真实标签与transformer模型输出的概率计算交叉熵损失函数并优化transformer模型,得到癌症溯源网络模型;所述损失函数为:

其中,K为类别数,y为真实标签,如果类别为i,则yi为1,否则yi为0,y'表示网络输出的癌症的概率,yi'表示网络输出的第i个类癌症的概率。

5.如权利要求4所述的一种基于RNA测序的癌症溯源方法,其特征在于,步骤S3的具体过程为:采用预处理后的TCGAFRESH数据作为训练数据,将其输入到癌症溯源网络模型中,再采用SGD算法作为模型优化算法,学习率设置为0.005,batch size设置为128,训练迭代次数设置为100,当癌症溯源网络模型的损失函数值连续30个迭代没有下降时停止训练,并将最后得到的癌症溯源网络模型保存下来,得到训练后的癌症溯源网络模型。

6.如权利要求5所述的一种基于RNA测序的癌症溯源方法,其特征在于,步骤S4还包括训练后的癌症溯源网络模型对TCGAFFPE数据的嵌入表示进行t-SNE可视化处理,将同一种癌症类别的样本聚集在一起,将不同种癌症类别的样本分开在不同的区域。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211567334.8/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top