[发明专利]一种构造数据补足值的方法有效
申请号: | 201410013757.4 | 申请日: | 2014-01-13 |
公开(公告)号: | CN103778329B | 公开(公告)日: | 2017-01-04 |
发明(设计)人: | 陈鹏;吴磊;罗辛;夏云霓 | 申请(专利权)人: | 成都国科海博信息技术股份有限公司;重庆大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 成都行之专利代理事务所(普通合伙)51220 | 代理人: | 梁田 |
地址: | 610000 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 构造 数据 补足 方法 | ||
技术领域
本发明涉及信息技术领域,尤其涉及一种构造数据补足值的方法。
背景技术
大数据时代,互联网信息规模呈爆炸性增长,并带来互联网信息超载的问题,过量信息同时呈现,使得用户很难从中筛选出对个人有效的部分,信息利用率反而降低。处理互联网信息超载问题,就需要采用大数据处理分析技术,对海量的互联网数据信息进行分析,找出用户与数据之间的关联,实现大数据环境中面向用户的主动信息推送,从而解决信息超载问题。
基于K近邻的协同过滤模型是一类经典的大数据处理分析模型,用以处理大数据环境中,在大型网络应用,如门户网站、电子商务信息系统、博客等等,中的用户-项目关联分析问题。其中项目指用户可能使用的任何互联网信息资源,如新闻、日志、商品、电影等等。该模型的处理对象是用户-项目行为矩阵。在用户-行为项目矩阵中,每一行对应于一个用户,每一列对应于一个项目,每一个矩阵元素则是根据其对应用户在其对应项目上的自然历史行为,如点击、浏览、购买、评论等,进行量化得出。
通常情况下,由于互联网信息的海量特征,在一个大型网络应用中,一个用户不可能使用所有的项目,而只可能使用项目全集的一个很小的子集;一个项目也不可能被所有的用户使用,其对应的用户集合只可能是用户全集的一个很小的子集。换而言之,用户-项目行为矩阵往往是极端稀疏的,其中包含有大量的缺失值。从另一方面出发,如果能够通过数学模型,对缺失的用户-项目行为数据进行适当的补足,则能够为用户提供对未使用项目的可靠关联,从而达到大数据环境中面向用户的主动信息推送的应用目的。这也是基于K近邻的协同过滤模型的基本工作思想。
基于K近邻的协同过滤模型,其工作流程是首先分析用户或项目间的近邻关系,然后结合相似度较高的用户或项目的已知行为,对其最近邻的缺失行为数据进行补足,最终达到信息推送的目的。基于K近邻的协同过滤模型具备很高的准确度和良好的可解释性,因而得到广泛应用。
但本申请发明人在实现本申请实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题:
在现有技术中,由于现有基于K近邻的协同过滤模型中的近邻居集来源单一,所以现有基于K近邻的协同过滤模型存在准确度无法提高的技术问题。
发明内容
本申请实施例通过提供一种构造数据补足值的方法,解决了现有技术中现有基于K近邻的协同过滤模型存在准确度无法提高的技术问题,实现了在进行缺失行为值的补足时准确度和覆盖率都有较大提升的技术效果。
为解决上述技术问题,本申请实施例提供了一种构造数据补足值的方法,应用于一电子设备中,所述方法包括:
所述电子设备获得用户-项目行为数据;
基于所述用户-项目行为数据,计算项目邻居关键度;
将所述项目的邻居集划分为固定最近邻居集和采样邻居集;
构造最近邻采样聚合;
基于所述固定最近邻居集和所述最近邻采样聚合对应的邻居关键度,以及所述用户-项目行为数据,构造对于缺失所述用户-项目行为数据的补足值。
其中,所述邻居关键度具体包括两部分,第一部分为:当前项目和邻居项目的行为相似度,第二部分为:当前项目和邻居项目的行为重叠度。
其中,所述构造最近邻采样聚合具体包括:
首先基于所述邻居关键度和最近邻规模阈值,将每个项目的邻居进行排序;
然后计算所述固定最近邻居集和所述采样邻居集的规模;
最后基于项目最近邻采样聚合规模阈值,利用带重置的样本拒绝采样技术,构造最近邻采样聚合。
其中,所述基于所述固定最近邻居集和所述最近邻采样聚合对应的邻居关键度,以及所述用户-项目行为数据,构造对于缺失所述用户-项目行为数据的补足值具体依据如下公式(1)实施。
(1)
其中,表示用户u已知行为的项目集合与项目i的固定最近邻居集和采样邻居集的交集。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都国科海博信息技术股份有限公司;重庆大学,未经成都国科海博信息技术股份有限公司;重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410013757.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于高耐磨粉泵与文丘里管的复合材料
- 下一篇:喷浆机械手
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置