[发明专利]一种甲基化位点识别方法及装置在审
申请号: | 202111136225.6 | 申请日: | 2021-09-27 |
公开(公告)号: | CN113823356A | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 邹权;李静;杜军平 | 申请(专利权)人: | 电子科技大学长三角研究院(衢州) |
主分类号: | G16B40/20 | 分类号: | G16B40/20;G16B20/30;G06K9/62 |
代理公司: | 成都创新引擎知识产权代理有限公司 51249 | 代理人: | 林庆华 |
地址: | 324003 浙江省衢*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 甲基化 识别 方法 装置 | ||
1.一种甲基化位点识别方法,其特征在于,包括如下步骤:
S1、导入甲基化位点识别序列数据文件,并从所述甲基化位点识别序列数据文件中获取待处理的原始甲基化位点数据集;
S2、根据特征提取算法从所述原始甲基化位点数据集中提取数据特征,得到特征矩阵;
S3、根据MRMD算法对所述特征矩阵进行特征选择,选择得到多个特征和与其关联的实例类别,根据所述多个特征和与其关联的实例类别得到特征子集;
S4、根据Xgboost算法并基于所述特征子集中的多个目标特征分别生成对应的基分类器;
S5、将多个所述基分类器进行集成,得到可识别甲基化位点的甲基化位点识别模型。
2.根据权利要求1所述的甲基化位点识别方法,其特征在于,所述特征提取算法包括基于序列特征的特征提取算法和基于物化性质的特征提取算法;
所述S2中,根据特征提取算法从所述原始甲基化位点数据集中提取数据特征,得到特征矩阵的过程包括:
根据序列特征的特征提取算法从所述原始甲基化位点数据集中提取Kmer,k间隔核苷酸对组成CKSNAP、核苷酸组成DNC和Mismatc特征,得到第一类数据特征;
根据物化性质的特征提取算法从所述原始甲基化位点数据集中提取并行相关伪三核苷酸组成PCPseTNC、系列相关伪二核苷酸组成SCPseDNC和序列相关伪三核苷酸组成SCPseTNC,得到第二类数据特征;
根据基因位点数据从所述原始甲基化位点数据集中提取基因衍生特征;
根据所述第一类数据特征、所述第二类数据特征和所述基因衍生特征得到特征矩阵。
3.根据权利要求1所述的甲基化位点识别方法,其特征在于,所述S3中,根据MRMD算法对所述特征矩阵进行特征选择的过程包括:
根据max(MRi+MDi)对所述特征矩阵进行特征选择,其中,MRi表示第i个circRNA实例类别与特征之间的皮尔逊系数,MDi表示第i个circRNA实例类别之间的欧式距离,并通过第一公式计算maxMRi值,所述第一公式为:
并通过第二公式计算maxMDi值,所述第二公式为:
其中,PCC(·)表示皮尔逊系数,Fi表示第i个circRNA实例类别的特征向量,Ci表示第i个circRNA实例类别的类别向量,M表示circRNA实例类别的特征维数,SFiCi表示Fi中所有元素和Ci中所有元素的协方差,SFi表示Fi中所有元素的标准差,SCi表示Ci中所有元素的标准差,fk表示Fi中的第k个元素,ck表示Ci中的第k个元素,N表示Fi和Ci中的元素数量,表示Fi中所有元素的平均值,表示Ci中所有元素的平均值,EDi表示第i个circRNA实例类别之间的Euclidean距离,COSi表示第i个circRNA实例类别之间的Cosine距离,TCi表示第i个circRNA实例类别之间的Tanimoto系数。
4.根据权利要求1所述的甲基化位点识别方法,其特征在于,还包括步骤,将所述原始甲基化位点数据集划分为正例数据集和反例数据集,所述正例数据集包括甲基化位点识别序列,所述反例数据集包括非甲基化位点识别序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学长三角研究院(衢州),未经电子科技大学长三角研究院(衢州)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111136225.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能攀爬外骨骼系统
- 下一篇:一种保温墙体结构及其施工方法