[发明专利]一种基于RNA测序的癌症溯源方法在审
申请号: | 202211567334.8 | 申请日: | 2022-12-07 |
公开(公告)号: | CN115798594A | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | 方韩;俞容山 | 申请(专利权)人: | 厦门大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B30/00;G06F18/2415;G06N3/0464;G06N3/0455;G06N3/08 |
代理公司: | 厦门致群财富专利代理事务所(普通合伙) 35224 | 代理人: | 巫其荣 |
地址: | 361000 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 rna 癌症 溯源 方法 | ||
1.一种基于RNA测序的癌症溯源方法,其特征在于,包括以下步骤:
S1、获取癌症数据中的TCGA FRESH数据、TCGA FFPE数据和TCGA METASTATIC数据,并对癌症数据进行预处理;
S2、基于transformer模型搭建癌症溯源网络模型;
S3、采用预处理后的TCGAFRESH数据,对癌症溯源网络模型进行训练,得到训练后的癌症溯源网络模型;
S4、将预处理后的TCGAFFPE数据和TCGAMETASTATIC数据作为测试数据,将两个测试数据集分别送入训练后的癌症溯源网络模型中,对癌症进行分类溯源。
2.如权利要求1所述的一种基于RNA测序的癌症溯源方法,其特征在于,步骤S1的具体过程为:
S11、从肿瘤基因组图谱TCGA中,获取TCGAFRESH数据、TCGAFFPE数据和TCGAMETASTATIC数据,癌症类型一共为32种;其中,TCGAFRESH数据和TCGA FFPE数据采样来自原发灶,TCGAMETASTATIC数据采样来自转移灶,三种数据的格式都为FPKM;
S12、对于每个基因g,如果有一半以上的样本的基因g的表达值为0,则将该基因g删除;再对处理后的所有样本的基因数据进行log转换,具体操作为log(t+1),得到转换后的数据,其中t为基因g的表达值;
S13、对每个癌型分配一个标签,一共有32种癌型,标签数从0到31,每个癌型对应一个数字标签;
S14、标签分配好后,根据每个样本所属的癌型为每个样本分配标签。
3.如权利要求2所述的一种基于RNA测序的癌症溯源方法,其特征在于:步骤S11中所述TCGAFRESH数据、TCGAFFPE数据和TCGAMETASTATIC数据的样本数分别为9697、246和391。
4.如权利要求3所述的一种基于RNA测序的癌症溯源方法,其特征在于,步骤S2的具体过程为:
S21、使用一维卷积对RNA测序数据进行处理,将原始RNA数据x转换为适合transformer模型处理的数据xe,其中,x∈R1xW,xe∈RNxP,W为基因个数,P为每个嵌入表示的维数,为256维,N=W/P,每个卷积得到的结果为嵌入表示;
S22、将可学习的类别嵌入表示与卷积得到的嵌入表示进行拼接;
S23、将拼接后的嵌入表示与对应的位置嵌入表示进行相加,保留位置信息,得到输入数据;
S24、将输入数据输入到编辑器Transformer Encoder中,编辑器Transformer Encoder由多头自注意力模块和MLP模块组成,并在这两个模块前应用Layernorm操作,且每个模块都用残差连接,编辑器Transformer Encoder的层数一共为4层,
S25、得到可学习的类别嵌入表示在编辑器Transformer Encoder对应的输出表示,将得到的结果输入到两层全连接网络中,获得32维输出,每维为各个癌症类别的概率,利用真实标签与transformer模型输出的概率计算交叉熵损失函数并优化transformer模型,得到癌症溯源网络模型;所述损失函数为:
其中,K为类别数,y为真实标签,如果类别为i,则yi为1,否则yi为0,y'表示网络输出的癌症的概率,yi'表示网络输出的第i个类癌症的概率。
5.如权利要求4所述的一种基于RNA测序的癌症溯源方法,其特征在于,步骤S3的具体过程为:采用预处理后的TCGAFRESH数据作为训练数据,将其输入到癌症溯源网络模型中,再采用SGD算法作为模型优化算法,学习率设置为0.005,batch size设置为128,训练迭代次数设置为100,当癌症溯源网络模型的损失函数值连续30个迭代没有下降时停止训练,并将最后得到的癌症溯源网络模型保存下来,得到训练后的癌症溯源网络模型。
6.如权利要求5所述的一种基于RNA测序的癌症溯源方法,其特征在于,步骤S4还包括训练后的癌症溯源网络模型对TCGAFFPE数据的嵌入表示进行t-SNE可视化处理,将同一种癌症类别的样本聚集在一起,将不同种癌症类别的样本分开在不同的区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211567334.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种茶叶技能综合培训系统
- 下一篇:一种抓斗船抓斗机构及液压控制系统