[发明专利]一种基于用户偏好的自适应采样方法有效
申请号: | 201610041393.X | 申请日: | 2016-01-22 |
公开(公告)号: | CN105740327B | 公开(公告)日: | 2019-04-19 |
发明(设计)人: | 谭铁牛;王亮;吴书;郭韦昱 | 申请(专利权)人: | 天津中科智能识别产业技术研究院有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06K9/62 |
代理公司: | 天津市三利专利商标代理有限公司 12107 | 代理人: | 韩新城 |
地址: | 300465 天津市滨海新区天津经济技*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 偏好 自适应 采样 方法 | ||
本发明公开一种基于用户偏好的自适应采样方法。该方法根据用户购买记录中反映的用户偏好及BPR模型的特性,自适应的构建三元组训练数据,训练BPR模型。与传统的基于随机采样的训练方法相比,本发明所设计的自适应采用算法,可以加速传统BPR模型的训练收敛,而且根据实际训练过程中,每一轮模型训练中个体模型参数数值变化不大,不足以引起商品排序上的剧烈变化这一实际观察现象,本发明专门设计了减少三元组训练实例构建开销的策略,从而以比传统随机采样增加很小一部分开销为代价,在保证模型预测精确度不下降的同时,极大的加速BPR模型训练的收敛。
技术领域
本发明涉及机器学习和模式识别技术领域,特别是涉及机器学习过程加速和自适应采样方法。
背景技术
随着互联网中信息的膨胀,个性化排序技术在信息过载的时代显得愈发重要。传统的个性化排序的方法主要是基于对用户显式反馈(例如用户对商品的评分)数据的分析,而现实中显式反馈数据量有限,应用场景相对有限,大量的用户兴趣信息往往隐藏在用户的隐含反馈中(例如用户浏览过的网页、用户购买过的商品)。
贝叶斯个性化排序(BPR,Bayesian Personalized Ranking)是一种用于处理用户隐含反馈的个性化排序方法,本发明中的算法和框架也是基于贝叶斯个性化排序方法的。
矩阵分解的方法在个性化排序中有着广泛地应用,虽然它也可以处理隐含反馈,但在实际的数据集中正反馈的数量远远少于负反馈,从而很容易出现过拟合的问题。贝叶斯个性化排序方法假设用户对他们所选择的商品比其他未被其选择的商品更感兴趣,这个对于用户兴趣对比的假设使得训练数据量大大增加,但是不同的训练实例会对学习过程产生不同的影响,使用随机采样产生训练样本的策略经常使得训练收敛速度很慢。为了加快学习过程,可以采用自适应的采样策略来构建训练数据,例如选取某个领域内流行的商品,或者根据用户的喜好的不同来选取更有价值的商品对作为训练数据,但这两种方法都很难在采样效率和预测效果上达成兼顾平衡。
发明内容
为了解决现有技术存在的上述技术问题,本发明提出一种基于用户 偏好的自适应采样方法,具体是一种机器学习中加速基于二元对训练数据的个性化排序模型的方法,其可在保证模型预测精确度不下降的同时,极大地加速BPR模型训练的收敛。
本发明是这样实现的,一种基于用户偏好的自适应采样方法,包括步骤:
S1,以特征学习的方法从用户和商品的属性特征中学习到用户和商品的低秩表达U0和V0,作为BPR模型的初始参数;
S2,根据商品的低秩表达在不同特征维度下对商品进行从大到小排序,得到k个特征维度下的商品排序列表L1,L2,...,Lk;
S3,根据商品和用户的低秩特征表达向量,计算训练集合中每一用户购买商品记录(ui,vp)从属于各特征维度的概率分布p(d|ui,vp),并以0初始化一与低秩特征维数相等长度的计数器数组counts;
S4,根据概率分布p(d|ui,vp)从低秩特征向量的维度中采样出一特征维度dz作为相关购买记录从属的特征维度;
S5,利用几何分布在商品集合排序空间中以预设概率p(r)采样出一排序序号r;
S6,结合特征维度dz和排序序号r在商品排序列表中取得一商品 作为一个可与用户已经购买的商品Vp进行比较且当前用户未曾购买的商品vq,组成一个三元组(ui,vp,vq),并让计数器加1;然后重复S4~S6,构建一个三元组集合Ds;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津中科智能识别产业技术研究院有限公司,未经天津中科智能识别产业技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610041393.X/2.html,转载请声明来源钻瓜专利网。