[发明专利]一种基于自适应Dropout非负矩阵分解的特征学习模型有效

专利信息
申请号: 201611159985.8 申请日: 2016-12-15
公开(公告)号: CN106779090B 公开(公告)日: 2019-03-08
发明(设计)人: 刘杰;何志成;刘才华;王嫄 申请(专利权)人: 南开大学
主分类号: G06N20/00 分类号: G06N20/00
代理公司: 天津佳盟知识产权代理有限公司 12002 代理人: 侯力
地址: 300071*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于自适应Dropout非负矩阵分解的特征学习模型。本发明基于对NMF中隐藏特征之间关系的分析,提出一种基于自适应Dropout非负矩阵分解的特征学习模型(Adaptive Dropout Non‑negative Matrix Factorization),能够主动学习隐藏特征之间的相异度,并将其转化为隐藏特征的数据表示能力。然后在此基础上构造概率函数,并对隐藏特征进行Dropout,从而降低隐藏特征在优化过程中的相互影响,提高隐藏特征的语义独立性。本发明具有良好的可解释性和泛化性,能够在文本和图像数据上取得明显的性能提升,并能够应用到已有的基于NMF的算法中。此外,本发明还具有良好的可并行性,可以部署到并行平台上运行,用来处理大规模数据。
搜索关键词: 一种 基于 自适应 dropout 矩阵 分解 特征 学习 模型
【主权项】:
1.一种基于自适应Dropout非负矩阵分解的特征学习模型(Adaptive Dropout Non‑negative Matrix Factorization),简称ADNMF模型,其特征在于所述ADNMF模型主要包括:1):采用矩阵来表示输入数据中的所有样本和特征;所述数据包括文本、图像或网络数据;对输入的数据集,根据数据类型进行不同的预处理,构建样本的特征表示矩阵,作为ADNMF模型的输入;1.1)、数据预处理指对数据进行特征抽取,将样本表示成相同维度的向量;对文本数据,需要进行分词和词汇统计,再使用词频或tfidf算法得到每一篇文本在相同的字典空间中的向量表示;对于图像数据,需要对图片进行剪切、拉伸和缩放处理,使图片具有相同的维度,然后采取灰度值或RGB值来将图片表示成相同维度的特征向量;对于网络数据,需要统计网络中包含的节点数量和节点之间的连接权重,得到每个节点的基于连接权重的表示;最后,对所有样本的特征表示进行非负处理,筛选出符合非负性要求的特征;1.2)、数据格式化;在数据预处理之后,需要将数据表示成矩阵,作为ADNMF模型的输入;因此,所有样本的特征表示将进一步格式化为相同维度的向量,向量的每一维表示样本在该维特征上的权值,并将所有样本的特征向量组合为特征表示矩阵,矩阵的每一行表示一维特征,每一列表示一个样本;2):基于特征表示矩阵,建立ADNMF模型的优化目标,采用自适应Dropout算法学习特征之间的关系,并进行优化求解,得到样本的隐藏特征表示,作为模型的输出;所述ADNMF模型的优化目标包括3个方面:(1)能够最大可能的降低每个样本从原始特征空间映射到隐藏特征空间中的重构损失;(2)采用自适应Dropout算法降低隐藏特征之间的语义相似性;(3)保证输出矩阵的非负特性,使得到的样本的隐藏特征表示具有较好的可解释性;所述ADNMF模型优化目标的求解算法应当满足三个基本条件:(1)算法能够在可接受的时间内收敛,(2)算法对存储空间的需求要控制在合理范围内,(3)算法能够并行执行,以提高计算效率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201611159985.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top