[发明专利]一种基于非负交替方向变换的用户特征抽取方法及抽取装置有效

专利信息
申请号: 201510087359.1 申请日: 2015-02-25
公开(公告)号: CN104636486B 公开(公告)日: 2018-01-02
发明(设计)人: 许明;罗辛;张能锋;袁野;吴迪;夏云霓 申请(专利权)人: 值得看云技术有限公司;中国科学院重庆绿色智能技术研究院
主分类号: G06F17/30 分类号: G06F17/30;G06Q30/02
代理公司: 重庆市前沿专利事务所(普通合伙)50211 代理人: 郭云
地址: 518000 广东省深圳市南山区粤*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 交替 方向 变换 用户 特征 抽取 方法 装置
【说明书】:

技术领域

发明涉及计算机大数据处理技术领域,特别涉及电子商务系统中一种基于非负交替方向变换的用户特征抽取方法及抽取装置。

背景技术

现代大型电子商务系统,其用户数量和信息数量十分巨大。此类系统中,用户的各种客观行为,如点击、浏览、评论、搜索等等,随系统运营时间累积,汇集成为庞大的用户历史行为数据集,数据量至少在TB量级,为典型的大数据环境。

在大型电子商务系统中,一种典型的数据描述结构是用户行为统计矩阵,其中的每一行对应一个用户,每一列对应于一个项目;项目指系统中任何可能由用户操作的客观物体,如新闻、图片、商品;每个矩阵元素对应单个用户对单个项目的历史行为数据,该数据是使用该用户对该项目的客观历史行为数据,利用符合自然规律的数学统计方法进行量化计算构成。大型电子商务系统中,用户和项目数量十分巨大,对应用户行为统计矩阵也十分巨大。同时,一个用户不可能操作所有的项目,一个项目也不可能被所有的用户操作;一般而言,用户行为统计矩阵中的已知数据远少于未知数据,是极端稀疏的。

系统运营过程中,基于用户行为统计矩阵中的已知数据,从中抽取用户特征,可对用户的行为进行有效的分析,从中挖掘包括用户类别、行为模式等规律。在用户特征的抽取过程中,保持用户特征的非负性,是一个关键,这是因为非负的用户特征更加符合电子商务系统中用户行为数据为正数的自然规律,能更好地对用户行为进行表征。现有非负特征抽取技术多用于计算机视觉领域,其基本特点是对于给定的图形或者图像,将其视为一个满秩矩阵,并对其进行非负条件限制下的矩阵因式分解,从而抽取出该图形或图像的局部物体特征。但是,电子商务系统中的用户特征抽取问题,与计算机视觉中的非负物体特征抽取问题,具备很大区别。这是因为计算机视觉中的非负物体特征抽取所处理的图形、图像所转化的矩阵是满秩矩阵,不具备缺失值,此类矩阵的非负矩阵因式分解问题可以借助常规的矩阵迭代运算进行处理;但电子商务系统中的非负用户行为抽取问题,所处理的用户行为统计矩阵,通常情况下是极端稀疏的,其中具备大量的缺失值,无法使用传统的矩阵因式分解处理,而需要用能作用于稀疏矩阵的非负隐特征分析处理。但是,现有非负矩阵隐特征分析方法,具备收敛速度慢、数据还原准确度低的缺点。

因此,如何针对大型电子商务系统中的、具备大量缺失值的用户行为统计矩阵,进行收敛速度快、数据还原准确度高的非负隐特征分析,从而获取能够良好描述用户行为自然规律的用户特征,是对现代大型电子商务系统所产生的海量数据进行分析所需要处理的一个关键问题。

发明内容

为了克服上述现有技术中存在的缺陷,本发明的目的是提供一种基于非负交替方向变换的用户特征抽取方法及抽取装置,本发明直接作用于用户行为统计矩阵中的已知数据集合,能够处理具备大量缺失值的、极端稀疏的用户行为统计矩阵,收敛速度快,数据还原准确度高,能够解决大数据处理环境中的用户特征抽取问题。

为了实现本发明的上述目的,本发明提供了一种基于非负交替方向变换的用户特征抽取方法,包括以下步骤:

S1.服务器对抽取装置发出进行用户特征抽取的指令;

S2.抽取装置接收指令并初始化参数,初始化参数包括:特征空间维数f、对偶学习速率η、拉格朗日增强因子λ、用户特征矩阵X、用户训练辅助矩阵X_U、X_D和X_C、项目特征矩阵Y、项目训练辅助矩阵Y_U、Y_D和Y_C、迭代控制变量t、迭代上限n、收敛判定阈值

S3.抽取装置构造累积绝对误差ε(P,Q,X,Y),其中P为用户特征约束矩阵,Q为项目特征约束矩阵;

S4.抽取装置使用约束条件对累积绝对误差ε(P,Q,X,Y)进行约束,保证矩阵P、Q的参数在训练过程中的非负性;

S5.抽取装置构造统一损失函数L(P,Q,X,Y,Γ,Κ),其中Γ和Κ均为对偶参数;

S6.抽取装置判断迭代训练控制变量t是否已达到上限n,若是,则执行步骤S9,若否,则执行步骤S7;

S7.抽取装置判断统一损失函数L相对于P,Q,X,Y,Γ和Κ是否在用户行为统计矩阵中的已知数据集合C上收敛,若是,则执行步骤S9,若否,则执行步骤S8;

S8.抽取装置在用户行为统计矩阵中的已知数据集合C中的已知数据上对P,Q,X,Y,Γ和Κ进行迭代训练,再执行步骤S6;

S9.抽取装置将通过迭代训练获取的用户特征矩阵X和项目特征矩阵Y输出,存储至数据模块中的获取特征存储单元。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于值得看云技术有限公司;中国科学院重庆绿色智能技术研究院,未经值得看云技术有限公司;中国科学院重庆绿色智能技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510087359.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top