[发明专利]面向大规模高维序列数据的交互特征并行选择方法有效
申请号: | 201810575946.9 | 申请日: | 2018-06-06 |
公开(公告)号: | CN108897990B | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 赵宇海;印莹;郭文鹏;王国仁;祁宏伟 | 申请(专利权)人: | 东北大学 |
主分类号: | G16B20/20 | 分类号: | G16B20/20;G16B40/00;G06N3/00;G06K9/46 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 胡晓男 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 大规模 序列 数据 交互 特征 并行 选择 方法 | ||
本发明提供一种面向大规模高维序列数据的交互特征并行选择方法,包括:对原始高维SNP数据进行编码;通过基于图论的块过滤,保留与目标类相关的编码后的SNP数据;将与目标类相关的SNP数据执行细粒度的特征过滤;以γ为粒度划分特征过滤后的序列数据集为若干块,并基于极大等位公共子序列MACS得到特征候选区域;对候选区域对应的数据集基于MapReduce进行特征区域的多样性选择,得到代表性特征区域;对代表性特征区域采用置换搜索的并行蚁群算法进行交互特征选择,得到显著性特征子集集合,即显著SNP位点集合。本发明为解决在大规模序列数据中进行交互特征选择提出一个全新的框架,使得特征选择更加高效、功能更为强大。
技术领域
本发明属于交互特征选择技术领域,具体是一种面向大规模高维序列数据的交互特征并行选择方法。
背景技术
随着数据挖掘、机器学习技术的不断推进和发展,特征选择技术受到了越来越多的关注,机器学习模型就学习效率和学习结果而言,在只使用相关数据上显著受益。而找出相关数据最广泛使用的技术便是特征选择,即是从原始特征集合中选择出一个特征子集。特征选择的成功应用同时也带来了新的挑战,其中之一便是找出潜在的交互特征子集,因为这些特征组合起来才是真正影响目标变量(类标签)的特征子集。因此交互特征选择算法研究也逐渐受到广大学者的关注与重视。
目前,对于多维交互特征选择的方法主要有三大类:枚举搜索、贪婪搜索以及随机搜索。其中,枚举搜索是将所有的特征组合进行检测,优点是结果准确,但计算量非常大,不能应用到大规模数据中,典型算法有多因子降维(MDR)、高阶非冗余交互特征选择(NIFS)等;贪婪搜索算法是在低阶交互特征范围进行高阶交互特征检测,优点是搜索的空间较小,但对边际作用的影响很敏感,典型算法有SNPRuler、分类退化树(CART);随机搜索算法是通过启发式的规则,利用学习模型或者不利用模型在搜索空间中随机的进行搜索。优点是可应用于大规模数据集中,并且不受边际作用的影响,但是其性能表现不稳定,最终结果依赖于初始值和整个搜索空间的数据结构。典型算法有SNPHarvester、贝叶斯上位关联映射(BEAM)等。
发明内容
针对现有技术存在的不足,本发明提供一种面向大规模高维序列数据的交互特征并行选择方法。
本发明的技术方案如下:
面向大规模高维序列数据的交互特征并行选择方法,包括:
对原始高维序列数据进行编码;所述原始高维序列数据是生物信息领域中的原始单核苷酸多态性(Single Nucleotide Polymorphism,即SNP)数据;
通过基于图论的块过滤,保留与目标类相关的SNP数据;
将与目标类相关的SNP数据执行细粒度的特征过滤;
划分特征过滤后的SNP数据集为若干块,并基于极大等位公共子序列MACS得到特征候选区域;
所述极大等位公共子序列MACS具体定义如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810575946.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置