[发明专利]一种甲基化位点识别方法及装置在审
申请号: | 202111136225.6 | 申请日: | 2021-09-27 |
公开(公告)号: | CN113823356A | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 邹权;李静;杜军平 | 申请(专利权)人: | 电子科技大学长三角研究院(衢州) |
主分类号: | G16B40/20 | 分类号: | G16B40/20;G16B20/30;G06K9/62 |
代理公司: | 成都创新引擎知识产权代理有限公司 51249 | 代理人: | 林庆华 |
地址: | 324003 浙江省衢*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 甲基化 识别 方法 装置 | ||
本发明提供一种甲基化位点识别方法及装置,方法包括:导入甲基化位点识别序列数据文件,并从甲基化位点识别序列数据文件中获取待处理的原始甲基化位点数据集;从原始甲基化位点数据集中提取数据特征,得到特征矩阵;对所述特征矩阵进行特征选择,选择得到多个特征和与其关联的实例类别,根据多个特征和与其关联的实例类别得到特征子集基于所述特征子集中的多个目标特征分别生成对应的基分类器;将多个基分类器进行集成,得到可识别甲基化位点的甲基化位点识别模型。本发明能够实现对甲基化位点的准确识别,为相应药物开发提供了理论基础,通过对基分类器进行集成进而构建甲基化位点识别模型,提升了甲基化位点识别精度。
技术领域
本发明主要涉及基因数据处理技术领域,具体涉及一种甲基化位点识别方法及装置。
背景技术
DNA甲基化是一种重要的表观遗传修饰,与癌症的发生发展密切相关。DNA甲基化位点作为一种癌症相关的生物标志物,其有效识别对于了解癌症的发病机制、癌症分析判断和药物开发具有较高的指导意义。目前,在基因组、表观基因组、转录组等不同组学的研究中,利用计算机生物工具识别甲基化位点的研究成果不断涌现。但目前的处理模型存在偏差,将位点粗略地确定为甲基化位点,存在不够精确的情况。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种甲基化位点识别方法及装置。
本发明解决上述技术问题的技术方案如下:一种甲基化位点识别方法,包括如下步骤:
S1、导入甲基化位点识别序列数据文件,并从所述甲基化位点识别序列数据文件中获取待处理的原始甲基化位点数据集;
S2、根据特征提取算法从所述原始甲基化位点数据集中提取数据特征,得到特征矩阵;
S3、根据MRMD算法对所述特征矩阵进行特征选择,选择得到多个特征和与其关联的实例类别,根据所述多个特征和与其关联的实例类别得到特征子集;
S4、根据Xgboost算法并基于所述特征子集中的多个目标特征分别生成对应的基分类器;
S5、将多个所述基分类器进行集成,得到可识别甲基化位点的甲基化位点识别模型。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述特征提取算法包括基于序列特征的特征提取算法和基于物化性质的特征提取算法;
所述S2中,根据特征提取算法从所述原始甲基化位点数据集中提取数据特征,得到特征矩阵的过程包括:
基于序列特征的特征提取算法从所述原始甲基化位点数据集中提取Kmer,k间隔核苷酸对组成CKSNAP、核苷酸组成DNC和Mismatch组成,得到第一类数据特征;
基于物化性质的特征提取算法从所述原始甲基化位点数据集中提取并行相关伪三核苷酸组成PCPseTNC、系列相关伪二核苷酸组成SCPseDNC和序列相关伪三核苷酸组成SCPseTNC,得到第二类数据特征;
根据基因位点数据从所述原始甲基化位点数据集中提取基因衍生特征;
根据所述第一类数据特征、所述第二类数据特征和所述基因衍生特征得到特征矩阵。
采用上述进一步技术方案的有益效果是:利用核苷酸的组成来表达甲基化位点序列的特征,能够实现对甲基化位点的准确识别。
进一步,所述S3中,根据MRMD算法对所述特征矩阵进行特征选择的过程包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学长三角研究院(衢州),未经电子科技大学长三角研究院(衢州)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111136225.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能攀爬外骨骼系统
- 下一篇:一种保温墙体结构及其施工方法