[发明专利]面向大规模高维序列数据的交互特征并行选择方法有效

专利信息
申请号: 201810575946.9 申请日: 2018-06-06
公开(公告)号: CN108897990B 公开(公告)日: 2021-10-29
发明(设计)人: 赵宇海;印莹;郭文鹏;王国仁;祁宏伟 申请(专利权)人: 东北大学
主分类号: G16B20/20 分类号: G16B20/20;G16B40/00;G06N3/00;G06K9/46
代理公司: 沈阳东大知识产权代理有限公司 21109 代理人: 胡晓男
地址: 110819 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 大规模 序列 数据 交互 特征 并行 选择 方法
【说明书】:

发明提供一种面向大规模高维序列数据的交互特征并行选择方法,包括:对原始高维SNP数据进行编码;通过基于图论的块过滤,保留与目标类相关的编码后的SNP数据;将与目标类相关的SNP数据执行细粒度的特征过滤;以γ为粒度划分特征过滤后的序列数据集为若干块,并基于极大等位公共子序列MACS得到特征候选区域;对候选区域对应的数据集基于MapReduce进行特征区域的多样性选择,得到代表性特征区域;对代表性特征区域采用置换搜索的并行蚁群算法进行交互特征选择,得到显著性特征子集集合,即显著SNP位点集合。本发明为解决在大规模序列数据中进行交互特征选择提出一个全新的框架,使得特征选择更加高效、功能更为强大。

技术领域

本发明属于交互特征选择技术领域,具体是一种面向大规模高维序列数据的交互特征并行选择方法。

背景技术

随着数据挖掘、机器学习技术的不断推进和发展,特征选择技术受到了越来越多的关注,机器学习模型就学习效率和学习结果而言,在只使用相关数据上显著受益。而找出相关数据最广泛使用的技术便是特征选择,即是从原始特征集合中选择出一个特征子集。特征选择的成功应用同时也带来了新的挑战,其中之一便是找出潜在的交互特征子集,因为这些特征组合起来才是真正影响目标变量(类标签)的特征子集。因此交互特征选择算法研究也逐渐受到广大学者的关注与重视。

目前,对于多维交互特征选择的方法主要有三大类:枚举搜索、贪婪搜索以及随机搜索。其中,枚举搜索是将所有的特征组合进行检测,优点是结果准确,但计算量非常大,不能应用到大规模数据中,典型算法有多因子降维(MDR)、高阶非冗余交互特征选择(NIFS)等;贪婪搜索算法是在低阶交互特征范围进行高阶交互特征检测,优点是搜索的空间较小,但对边际作用的影响很敏感,典型算法有SNPRuler、分类退化树(CART);随机搜索算法是通过启发式的规则,利用学习模型或者不利用模型在搜索空间中随机的进行搜索。优点是可应用于大规模数据集中,并且不受边际作用的影响,但是其性能表现不稳定,最终结果依赖于初始值和整个搜索空间的数据结构。典型算法有SNPHarvester、贝叶斯上位关联映射(BEAM)等。

发明内容

针对现有技术存在的不足,本发明提供一种面向大规模高维序列数据的交互特征并行选择方法。

本发明的技术方案如下:

面向大规模高维序列数据的交互特征并行选择方法,包括:

对原始高维序列数据进行编码;所述原始高维序列数据是生物信息领域中的原始单核苷酸多态性(Single Nucleotide Polymorphism,即SNP)数据;

通过基于图论的块过滤,保留与目标类相关的SNP数据;

将与目标类相关的SNP数据执行细粒度的特征过滤;

划分特征过滤后的SNP数据集为若干块,并基于极大等位公共子序列MACS得到特征候选区域;

所述极大等位公共子序列MACS具体定义如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810575946.9/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top