[发明专利]一种构造数据补足值的方法有效

专利信息
申请号: 201410013757.4 申请日: 2014-01-13
公开(公告)号: CN103778329B 公开(公告)日: 2017-01-04
发明(设计)人: 陈鹏;吴磊;罗辛;夏云霓 申请(专利权)人: 成都国科海博信息技术股份有限公司;重庆大学
主分类号: G06F19/00 分类号: G06F19/00
代理公司: 成都行之专利代理事务所(普通合伙)51220 代理人: 梁田
地址: 610000 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 构造 数据 补足 方法
【说明书】:

技术领域

发明涉及信息技术领域,尤其涉及一种构造数据补足值的方法。 

背景技术

大数据时代,互联网信息规模呈爆炸性增长,并带来互联网信息超载的问题,过量信息同时呈现,使得用户很难从中筛选出对个人有效的部分,信息利用率反而降低。处理互联网信息超载问题,就需要采用大数据处理分析技术,对海量的互联网数据信息进行分析,找出用户与数据之间的关联,实现大数据环境中面向用户的主动信息推送,从而解决信息超载问题。 

基于K近邻的协同过滤模型是一类经典的大数据处理分析模型,用以处理大数据环境中,在大型网络应用,如门户网站、电子商务信息系统、博客等等,中的用户-项目关联分析问题。其中项目指用户可能使用的任何互联网信息资源,如新闻、日志、商品、电影等等。该模型的处理对象是用户-项目行为矩阵。在用户-行为项目矩阵中,每一行对应于一个用户,每一列对应于一个项目,每一个矩阵元素则是根据其对应用户在其对应项目上的自然历史行为,如点击、浏览、购买、评论等,进行量化得出。 

通常情况下,由于互联网信息的海量特征,在一个大型网络应用中,一个用户不可能使用所有的项目,而只可能使用项目全集的一个很小的子集;一个项目也不可能被所有的用户使用,其对应的用户集合只可能是用户全集的一个很小的子集。换而言之,用户-项目行为矩阵往往是极端稀疏的,其中包含有大量的缺失值。从另一方面出发,如果能够通过数学模型,对缺失的用户-项目行为数据进行适当的补足,则能够为用户提供对未使用项目的可靠关联,从而达到大数据环境中面向用户的主动信息推送的应用目的。这也是基于K近邻的协同过滤模型的基本工作思想。 

基于K近邻的协同过滤模型,其工作流程是首先分析用户或项目间的近邻关系,然后结合相似度较高的用户或项目的已知行为,对其最近邻的缺失行为数据进行补足,最终达到信息推送的目的。基于K近邻的协同过滤模型具备很高的准确度和良好的可解释性,因而得到广泛应用。 

但本申请发明人在实现本申请实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题: 

在现有技术中,由于现有基于K近邻的协同过滤模型中的近邻居集来源单一,所以现有基于K近邻的协同过滤模型存在准确度无法提高的技术问题。

发明内容

本申请实施例通过提供一种构造数据补足值的方法,解决了现有技术中现有基于K近邻的协同过滤模型存在准确度无法提高的技术问题,实现了在进行缺失行为值的补足时准确度和覆盖率都有较大提升的技术效果。 

为解决上述技术问题,本申请实施例提供了一种构造数据补足值的方法,应用于一电子设备中,所述方法包括: 

所述电子设备获得用户-项目行为数据;

基于所述用户-项目行为数据,计算项目邻居关键度;

将所述项目的邻居集划分为固定最近邻居集和采样邻居集;

构造最近邻采样聚合;

基于所述固定最近邻居集和所述最近邻采样聚合对应的邻居关键度,以及所述用户-项目行为数据,构造对于缺失所述用户-项目行为数据的补足值。

其中,所述邻居关键度具体包括两部分,第一部分为:当前项目和邻居项目的行为相似度,第二部分为:当前项目和邻居项目的行为重叠度。 

其中,所述构造最近邻采样聚合具体包括: 

首先基于所述邻居关键度和最近邻规模阈值,将每个项目的邻居进行排序;

然后计算所述固定最近邻居集和所述采样邻居集的规模;

最后基于项目最近邻采样聚合规模阈值,利用带重置的样本拒绝采样技术,构造最近邻采样聚合。

其中,所述基于所述固定最近邻居集和所述最近邻采样聚合对应的邻居关键度,以及所述用户-项目行为数据,构造对于缺失所述用户-项目行为数据的补足值具体依据如下公式(1)实施。 

(1) 

其中,表示用户u已知行为的项目集合与项目i的固定最近邻居集和采样邻居集的交集。

本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点: 

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都国科海博信息技术股份有限公司;重庆大学,未经成都国科海博信息技术股份有限公司;重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410013757.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top