[发明专利]一种基于稀疏数据预处理的协同过滤推荐方法在审

申请号：	201510844684.8	申请日：	2015-11-27
公开（公告）号：	CN105354330A	公开（公告）日：	2016-02-24
发明（设计）人：	陈宗言;颜俊;朱卫平	申请（专利权）人：	南京邮电大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	南京知识律师事务所 32207	代理人：	汪旭东
地址：	210003 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于稀疏数据预处理协同过滤推荐方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种基于稀疏数据预处理的协同过滤推荐方法，属于互联网信息技术领域。

背景技术

随着互联网和信息技术的不断发展，人们逐渐从信息匮乏的时代步入了信息过剩的时代。在这个时代里，无论是信息的生产者或是信息的消费者，都面临着巨大挑战，即作为信息生产者，如何让自己的信息脱颖而出，受到广大用户的关注，是一件非常困难的事情。作为信息的消费者，如何从海量的信息中找到自己感兴趣的信息也是一件非常复杂的事情。因此，协同过滤推荐已成为了互联网信息技术的研究热点之一。

协同过滤推荐的任务就是联系用户和信息，一方面帮助用户发现对自己有价值的信息，另一方面让信息能够展现在对它感兴趣的用户面前。为使协同过滤推荐能够产生精确的推荐，保证推荐的实时性和有效性的要求，研究人员提出了各式各样的推荐方法。

但是，随着协同过滤推荐规模的不断扩大，用户评分数据呈现出极端的稀疏性，比如：在大型商务系统中，用户评分的项目一般不会超过项目总和的1％。人们发现协同过滤技术在对由用户历史信息得到的用户和项目评分矩阵进行用户(即项目)相似度计算时，得到的结果不能让人满意，比如：一个用户由于是新用户或者其作出评分的项目过少，可能会导致该用户和其他用户之间的相似度无法计算，从而不能作出有效推荐，导致推荐算法精确度的下降。因此，在大型商务系统中，基于稀疏数据集的协同过滤推荐方法已经成为制约推荐系统性能的一个关键因素，但是，如何对稀疏数据集进行合适的处理，已成为了一个具有挑战性的问题。

目前对推荐系统中稀疏数据集处理的方法包括：

(1)使用奇异值矩阵分解的预处理方法

该方法首先构建稀疏用户和项目评分矩阵，接着对评分矩阵进行奇异值分解，获得一个用户特征矩阵，并将其压缩到一个用户潜在因素空间。类似地，将每个项目也映射到一个同样的潜在因素空间，然后根据每个用户的特征矩阵，预测用户对不同项目的评分，并用这些预测评分来填充稀疏用户和项目评分矩阵中的用户未评分项目，使矩阵得以饱和。

(2)使用用户或者项目评分集均值的填充方法

该方法首先构建稀疏用户和项目评分矩阵，接着计算每个用户或者项目的已评分数据集的均值，并将各自的评分均值用来填充各自的未评分项。比如，我们计算得到用户A历史评分均值，那么则将所有稀疏矩阵中用户A未评分的项目评分填充为A的历史评分均值。这种方法会产生一个弊端，即用户A对那些未评分项目的预测评分都是相同的。

(3)使用用户或者项目评分集众值的填充方法

该方法首先构建稀疏用户和项目评分矩阵，接着统计出每个用户或者项目的已评分数据集的众值，并将各自评分数据集的众值用来填充稀疏数据中的未评分项，这种方法可以体现出用户的评分喜好。但同样，使用该方法会出现多众值和无众值的情况。而本发明能够很好地解决上面的问题。

发明内容

本发明目的在于解决了上述现有技术的不足，提出一种基于稀疏数据预处理的协同过滤推荐方法，该方法通过引入项目自身的特征属性信息，计算项目间特征属性相似度，从而初步预测用户对未评分项目的评分，再对稀疏数据集的未评分项目进行混合填充预处理，可以使得用户和项目评分矩阵完全饱和，有效解决了传统使用已评分数据集均值填充未评分项带来的用户对项目评分一致的问题；有效解决了传统使用已评分数据集众值填充评分项所造成的多众值或者无众值的问题。

本发明解决其技术问题所采取的技术方案是：一种基于稀疏数据预处理的协同过滤推荐方法，该方法包括如下步骤：

步骤1：根据用户对项目的历史评分数据构建稀疏的用户和项目评分矩阵，矩阵中行代表用户，列代表项目；根据项目的自身属性信息构建项目特征属性矩阵，矩阵中行代表项目,列代表特征属性；

步骤2：对各项目具有的特征属性赋予不同的权值，并且各项目所具有的特征属性权值之和为1，即i代表项目的第i个特征属性，n代表各项目所具有的特征属性的个数，w_i代表项目的第i个特征属性所具有的权值大小；

步骤3：利用余弦相似性计算得到项目间特征属性相似度，并构建项目特征属性相似度矩阵；

步骤4：设定阈值大小为0.9,得到满足阈值的目标项目的相似项目集合，进而得到用户在用户和项目评分矩阵中的已评分的数据集合以及对应的特征属性相似度值集合，计算未评分项目的填充评分；

步骤5：利用计算得到的预测评分去填充稀疏用户和项目评分矩阵中用户未评分项，最终得到一个饱和的用户和项目评分矩阵；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510844684.8/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于稀疏数据预处理的协同过滤推荐方法在审

专利文献下载