[发明专利]基于不相似度与拉普拉斯正则化下的稀疏子集选择方法在审

专利信息
申请号: 201710889428.X 申请日: 2017-09-27
公开(公告)号: CN107798337A 公开(公告)日: 2018-03-13
发明(设计)人: 武继刚;贺子楠;姜文超;王勇 申请(专利权)人: 广东工业大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 广东广信君达律师事务所44329 代理人: 杨晓松
地址: 510062 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 相似 拉普拉斯 正则 稀疏 子集 选择 方法
【说明书】:

技术领域

本申请涉及机器学习与数据分析领域,其尤其指一种基于不相似度与拉普拉斯正则化下的稀疏子集选择方法。

背景技术

稀疏子集的选择:发现大量模型或数据点的子集,其保留了整个集合的特征,是计算机视觉应用中的机器学习和数据分析中的一个重要问题,其在图像和自然语言处理,生物/健康信息学,推荐系统等方面有大量应用。这些信息要素被称为代表元或示范。数据代表有助于总结和可视化文本/Web文档,图像和视频的数据集,因此增加数据分析师和领域专家的大规模数据集的可解释性。模型代表帮助有效地描述使用少量模型的复杂现象或事件,或者可以用于集合模型中的模型压缩。更重要的是,学习和推理算法(如最近邻(NN))分类器的计算时间和内存要求通过处理包含原始集合的大部分信息的代表来改进。选择一小部分产品推荐给客户不仅可以提高零售商的收入,还可以节省客户时间。此外,代表元有助于数据集的聚类,并且作为最原始的元素,可用于有效地合成/生成新的数据点。最后同样重要的,可以使用代表来获取高性能分类器,使用非常少的样本从大量未标记的样本中选择和注释。

不相似度:不相似度是一种数据之间成对的对应关系,它有许多优点:第一,对于高维数据集,其中环境空间维度远高于数据集的基数,处理成对关系比在高维度测量向量上工作更有效。第二,虽然一些实际数据集不存在于向量空间中,例如社交网络数据或蛋白质组学数据中,但成对关系已经可以对其进行有效地计算。

拉普拉斯正则化:低秩方法捕获潜在的低维-RANK表示(LRR),作为有前途的数据结构,已经引起了模式分析和信号处理社区的极大兴趣。具体来说,近年来涉及低阶矩阵估计的问题引起了相当大的关注。LRR已广泛应用于子空间分割,图像去除,图像聚类和视频背景/前景分离。LRR中的低等级规范者与最近对鲁棒主成分分析(RPCA)的理论进展有着深刻的联系,这为许多应用程序带来了新的强大的建模选项。

发明内容

本发明的目的通过下述技术方案实现:

假设我们有一个源集X={x1,...,xM}和一个目标集Y={y1,...,yN},他们分别含有M和N个元素,假设我们得到了X与Y之间的不相似度关系dij表示xi代表yj的好坏程度,它的值越小表示xi越能更好的代表yj。将这种二元关系写成如下的矩阵形式

我们的目的是找到X的一个较小的子集使得它能够很好的代表目标集Y,如图1所示,其中图1左侧:源集X与目标集Y之间的不相似度关系;右侧:找出了源集X的一个子集,这个子集能够很好的代表目标集Y所拥有的特征

给予一个不相似度矩阵D,我们需要找到源集X的一个代表子集,即代表元,使得它能够有效的代表目标集Y。为此,我们考虑关于与不相似度dij相关联的未知变量zij的优化关系。我们用如下矩阵代表这些未知变量

我们用变量zij表示xi是否代表yj,当zij取0时表示xi代表yj,反之则不代表。为了保证每一个yj都有相应的代表元,我们规定

基于不相似度选择一个很好地编码Y的X元素需要达到以下三个目标,第一,我们需要代表元能够足够好的代表yj,如果xi被选为代表元,则编码yj的花费为dijzij∈{0,dij},则通过X的子集代表Y的花费为第二,我们希望能够选择尽可能少的代表元来代表目标集Y,这个目标等同于矩阵Z含有较少非零行。第三,我们希望所得到的代表元能够有比较好的结构,即代表元之间的“距离”能够尽可能的远。

将这三个目标集合起来,我们得到以下优化函数

其中||-||p代表lp范数,I(-)代表指示函数。此目标函数中的第一项代表编码的质量,第二项表示代表元的个数,第三项表示代表元的结构。

由于其中包含二元结构zij∈{0,1},所以此问题是一个非凸问题,即NP-hard,所以我们考虑以下凸松弛问题:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710889428.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top