[发明专利]一种基于簇数自适应增长的聚类算法的个性化推荐算法在审

申请号：	201710177780.0	申请日：	2017-03-23
公开（公告）号：	CN107092924A	公开（公告）日：	2017-08-25
发明（设计）人：	杨波;袁磊	申请（专利权）人：	电子科技大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于自适应增长算法个性化推荐
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明是关于数据挖掘中的个性化推荐问题，具体涉及数据挖掘中的基于聚类的个性化推荐领域。

背景技术

个性化推荐是根据用户的兴趣特点和购买行为，向用户推荐用户感兴趣的信息和商品。协同过滤算法是个性化推荐中的常用算法。协同过滤推荐前进行聚类有利于解决搜索空间较大、准确率不够高以及对稀疏数据敏感等问题。

聚类是将相似度高的对象聚集成簇的过程。在个性化推荐中，可以首先采用聚类技术将相似度高的对象聚类，然后将聚类簇的信息用到推荐算法中。然而，目前大多数采取先聚类后协同过滤策略的个性化推荐算法只支持离线学习，不能适应用户、项目和评分信息频繁更新的增量学习的情况。

目前已经提出了一些能适应增量学习情况的先聚类后协同过滤的个性化推荐算法。但是这些算法存在的一个缺点是：在聚类阶段需要事先人为指定簇的数量，这样推荐算法的结果往往对该人为指定的簇的数量敏感，因而需要花费大量时间来实验以确定最优的簇数量。另一个缺点是准确度不够高。

发明内容

针对现有先聚类后协同过滤的个性化推荐算法存在的不足，本发明提供了一种基于簇数自适应增长的聚类算法的个性化推荐算法。本算法包含基于聚类的增量学习和推荐两个阶段，其中在基于聚类的增量学习阶段采用了本发明提供的MWOSK-means(Modified Weighted Online Spherical K-means)算法与MGSoC(Modified Growing Self-organizing Cluster)算法。MWOSK-means算法能够充分利用项目信息补足用户权值的计算，提高了个性化推荐的准确度。MGSoC算法完成了簇数量的自适应增长，一定程度上解决了现有技术中簇的数量需人为事先指定、需要大量时间确定最优簇数量的问题。

本发明所提供的基于簇数自适应增长的聚类算法的个性化推荐算法可适用于信息(如用户、项目和评分信息等)频繁更新的增量学习情况，与现有个性化推荐算法相比能得到更高的准确度并且减少了确定最优簇数量所需的时间。

本发明包含以下内容：

1、一种基于簇数自适应增长的聚类算法的个性化推荐算法

该算法包含基于聚类的增量学习和推荐两个阶段，详见图1。

2、一种基于MWOSK-means算法和MGSoC算法的簇数自适应增长的聚类算法

在本发明提供的个性化推荐算法中的增量学习阶段，采用了本发明提供的一种基于MWOSK-means算法和MGSoC算法的簇数自适应增长的聚类算法(见图1中的P1)，该算法包括使用MWOSK-means算法进行聚类(见图1中的S2，详见图3)、使用MGSoC算法实现簇数量的自适应增长(见图1中的P1.1，详见图4、图5)和增量更新(见图1中的S6，详见图6、图7、图8、图9)三个部分。

3、一种新的项目权值和用户权值的计算方法

现有技术在计算用户权值时没有考虑项目权值带来的影响。本发明提供了一种MWOSK-means算法，该算法的初始化阶段(见图2中的S1.5)采用了本发明提供的一种新的项目权值计算方法，具体见公式(1)、(2)。基于该项目权值计算方法，本发明提供了一种新的考虑了项目权值的用户权值计算方法，具体方法见公式(3)。

4、一种新的判断聚类过程中簇数量是否合适的判断方法

在本发明的内容2中，采用MGSoC算法实现簇数量的自适应增长(见图1中的P1.1，详见图4、图5)部分，为了实现簇数量的自适应增长，本发明在MGSoC算法中提供了一种新的判断聚类过程中簇数量是否合适的方法(图1中的S3、S4，其中S3详见图4)。

5、一种新的计算新增簇中心初始位置的计算方法

在本发明的内容2中，采用MGSoC算法实现簇数量的自适应增长(见图1中的P1.1，详见图4、图5)部分，如果判断得出聚类过程中的簇数量不合适，则由MGSoC算法中本发明提供的一种新的计算新增簇中心初始位置的计算方法来计算新簇中心初始位置(图1中的S5，详见图5)。

附图说明

图1是本发明提供的一种基于簇数自适应增长的聚类算法的个性化推荐算法的流程图。

图2是图1中S1的流程图。

图3是图1中S2的流程图。

图4是图1中S3的流程图。

图5是图1中S5的流程图。

图6是图1中S6的流程图。

图7是图6中S6.1的流程图。