[发明专利]识别4-甲基胞嘧啶位点的预测方法在审
申请号: | 202011024490.0 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112242180A | 公开(公告)日: | 2021-01-19 |
发明(设计)人: | 郭菲;邹权;何文颖;唐继军 | 申请(专利权)人: | 天津大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G06K9/62;G06N20/00 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 刘国威 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 甲基 胞嘧啶 预测 方法 | ||
本发明涉及机器学习领域中对表观遗传学修饰位点的预测技术,为提出一种识别4‑甲基胞嘧啶位点的预测方法及软件系统,本发明识别4‑甲基胞嘧啶位点的预测方法,步骤如下:步骤1:基准数据集的建立;步骤2:特征提取:提取正负样本集的序列信息构造多维特征编码;步骤3:选择机器学习算法:以相同的特征构造预测模型,从朴素贝叶斯K最近邻KNN、随机森林RF和支持向量机SVM挑选出最优的分类算法;步骤4:特征选择;步骤5:模型构建:以步骤(3)所选的机器学习算法,整合不同的特征子集进行刀切验证,并对预测模型进行评估,选择最优预测模型。本发明主要应用于对表观遗传学修饰位点的预测场合。
技术领域
本发明涉及机器学习领域中对表观遗传学修饰位点的预测技术,具体涉及识别4-甲基胞嘧啶位点的预测方法及软件系统。
背景技术
DNA在特异的甲基化转移酶(DNA methyltransferase,DNMT)作用下,转移一个甲基到胞嘧啶的N4位置形成4-甲基胞嘧啶。
DNA甲基化是生命体最主要的表观遗传学修饰之一。DNA甲基化修饰参与细胞分化、基因组稳定性、X染色体失活等生物学过程。DNA甲基化状态的改变导致基因结构和功能的异常,这与肿瘤的发生密切相关。
DNA甲基化最主要的生物学检测方法是亚硫酸盐测序,经过亚硫酸盐的处理后DNA的胞嘧啶(C)转变为胸腺嘧啶(T),通过甲基化中的CpG二核苷酸C未转变为T,判断DNA是否发生甲基化。但是随着测序技术的发展,高通量的测序背景下,亚硫酸盐检测等实验方法费事费力,以及4-甲基胞嘧啶位点的预测算法还比较缺乏,在这种背景下,迫切需要建立准确和高效的预测方法来识别甲基化位点。
发明内容
为克服现有技术的不足,本发明旨在提出一种识别4-甲基胞嘧啶位点的预测方法及软件系统。为此,本发明采取的技术方案是,识别4-甲基胞嘧啶位点的预测方法,步骤如下:
步骤1:基准数据集的建立
从相关文献中收集六个物种秀丽隐杆线虫Caenorhabditis elegans、黑腹果蝇Drosophila melanogaster、拟南芥Arabidopsis thaliana、大肠杆菌Escherichia coli、地下地碱杆菌Geoalkalibacter subterraneus、梭梭杆菌Geobacter pickeringii的4-甲基胞嘧啶数据,构建正负样本集,并参考文献截取序列片段;
步骤2:特征提取
提取正负样本集的序列信息构造多维特征编码;
步骤3:选择机器学习算法
以相同的特征构造预测模型,从朴素贝叶斯Bayes、K最近邻KNN、随机森林RF和支持向量机SVM挑选出最优的分类算法;
步骤4:特征选择
以F-score方法为特征选择方法,采用F-score值对多维特征进行排序,去除冗余信息,从而筛选出最优特征子集;
步骤5:模型构建
以步骤(3)所选的机器学习算法,整合不同的特征子集进行刀切验证,并对预测模型进行评估,选择最优预测模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011024490.0/2.html,转载请声明来源钻瓜专利网。