[发明专利]一种基于多视图哈希的图书推荐方法有效
申请号: | 201510065111.5 | 申请日: | 2015-02-09 |
公开(公告)号: | CN104679835B | 公开(公告)日: | 2017-10-31 |
发明(设计)人: | 张寅;魏宝刚;洪鑫 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视图 图书 推荐 方法 | ||
技术领域
本发明涉及基于多视图哈希的图书推荐技术,尤其涉及一种基于多视图哈希的图书推荐方法。
背景技术
随着信息技术的发展,内容的创建和分享变得越来越容易,这可以让人们获得更多的信息,满足了人们的需求,但是用户在面对互联网上的海量信息时,无法准确地从中获得自己需要的信息,这会使互联网上信息的利用效率下降,这就是所谓的信息过载问题。个性化推荐系统的出现就是为了解决这个问题的。推荐系统会根据用户的信息,分析用户的信息需求点、兴趣爱好点,将特定的一些产品或者信息推荐给用户。数字图书馆的用户在面对大量增长的在线图书资源时,也会面临这个问题,即用户不知道如何寻找自己感兴趣的书籍。
挖掘用户的兴趣点通常是根据用户历史的行为数据,传统的方法一般是利用了用户在某一个视图上的数据,而没有考虑将多个视图的用户行为数据整合在一起,另一方面,传统的推荐方法是基于高维的特征向量来计算的,效率不高。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于多视图哈希的图书推荐方法。
本发明的目的是通过以下技术方案来实现的:一种基于多视图哈希的图书推荐方法,包括以下步骤:
(1)从日志收集系统中筛选出用户在两个视图上的行为数据,包括图书点击数据和搜索数据;
(2)利用用户的点击数据和搜索数据,构建用户在点击视图和搜索视图上的用户特征向量;
(3)利用用户在两个视图上的用户特征向量,通过多视图哈希算法学习得到用户的哈希编码、两个视图上的哈希函数以及各个视图的权重;
(4)利用得到的用户哈希编码为目标用户寻找相似用户;
(5)得到相似用户的图书集合,作为推荐图书的候选列表,计算目标用户对候选列表中的图书的偏好程度,返回目标用户偏好程度最大的前N本图书。
进一步地,所述的步骤2具体为:从用户点击数据中得到所有用户的图书点击集合B={b1,b2,...,bx},其中x为图书总数,再根据用户点击数据和B,构建出每个用户点击视图的特征向量X1,X1=[I1,I2,...,Ix]其中利用所有用户的搜索数据,首先将用户所有的搜索词分词,得到所有用户的搜索词集合Q={q1,q2,...,qy},y表示分词后所有搜索词个数,然后利用工具word2Vec以及weka将这些词聚类,得到a个类,a为自然数,最后构建出用户在搜索视图的特征向量X2,X2=[I1,I2,...,Ia],其中Ij=用户的搜索词在类j中的占比,j=1,2,…,a。
进一步地,所述的步骤3包括以下子步骤:
(3.1)初始化点击视图和搜索视图的权重αp,αp=0.5,p=1,2;
(3.2)根据X1和X2构建链接矩阵
(3.3)根据构建正规图拉普拉斯矩阵
(3.4)计算得到
(3.5)计算矩阵H(α)的k个对应特征值最小的特征向量,k为最终用户哈希编码的位数;根据特征向量生成用户哈希编码矩阵U;
(3.6)计算得到哈希函数
(3.7)根据二次规划方法更新权重α;如果没有收敛,重复步骤3.4到步骤3.7,如果已经收敛,则得到最终的
进一步地,所述的步骤4具体为:目标用户的哈希编码如果可在步骤3生成的U中找到,则直接计算目标用户与U中的所有其他用户的哈希编码之间的汉明距离,否则首先得到目标用户两个视图的特征向量,再利用步骤3中得到的哈希函数和权重α生成哈希编码,然后计算目标用户与U中的所有用户的哈希编码之间的汉明距离;根据汉明距离从小到大排序,选前M个用户作为目标用户的相似用户,得到相似用户集合Usim,M为自然数。
进一步地,所述的步骤5包括以下子步骤:
(5.1)将相似用户集合Usim中所有用户对应的图书集合进行合并,去除目标用户已经点击过的图书,组成推荐结果的候选集合Icandidate;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510065111.5/2.html,转载请声明来源钻瓜专利网。