[发明专利]一种融合标签数据和朴素贝叶斯分类的推荐方法及系统有效
申请号: | 202010194133.2 | 申请日: | 2020-03-19 |
公开(公告)号: | CN111428145B | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 何登平;何泽灵 | 申请(专利权)人: | 重庆邮电大学;重庆信科设计有限公司 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06K9/62 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 陈栋梁 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 标签 数据 朴素 贝叶斯 分类 推荐 方法 系统 | ||
1.一种融合标签数据和朴素贝叶斯分类的推荐方法,其特征在于,包括以下步骤:
首先,设置标签数据扩展的阈值;采用用户标签数据作为用户的属性特征,站在用户的角度,利用统计学和概率论的思想建立用户和标签之间的关联,并将用户和标签之间的关联与朴素贝叶斯分类算法相结合,进而对老用户进行分类,以及对目标用户进行类别的匹配;
考虑标签的扩展性和时间上下文信息这两个因素,最后计算类别里的用户对物品的平均评分信息,实现Top-N推荐;
所述设置标签数据扩展的阈值,具体包括:通过计算标签之间的相似度来设置阈值,对于标签t,令N(t)为打上标签t的物品集,nt,i为给物品i打上标签t的用户数,利用余弦相似度公式计算标签t和标签t'之间的相似度:
根据公式(1)计算出标签t与其相似标签的相似度,设置阈值y,若sim(t,t')>y,则标签t'属于标签t的扩展集;
所述利用基于标签的朴素贝叶斯分类器对用户进行分类,具体包括以下步骤:
(1)先确定用户类别的类先验概率,定义用户类别C(u1,u2,…,ux)∈U(C1,C2,…,Cm),x表示类别C里有x个用户,m表示有m个用户类别;
如公式(3)所示:
(2)估算用户u每个属性即标注的不同标签的条件概率,如公式(4)所示:
式中,SIM(t)表示标签t扩展后的标签集,表示用户u标注标签tk的次数,N(t)表示用户u产生标注标签行为的总次数,f(τk)表示时间衰减函数;
所述对目标用户进行类别的匹配,具体包括:在目标用户进入系统后,提取其兴趣标签,按照利用基于标签的朴素贝叶斯分类器对用户进行分类的步骤和计算公式得到目标用户的类别。
2.根据权利要求1所述的一种融合标签数据和朴素贝叶斯分类的推荐方法,其特征在于,所述对老用户进行分类,具体包括:首先在系统中随机选出x个活跃用户作为分类的类别,再利用基于标签的朴素贝叶斯分类器对用户进行分类,其计算公式如公式(2)所示:
式中,P(C)表示用户类别的类先验概率,P(ui|C)表示用户u每个属性的条件概率,C表示用户类别,d表示代表用户的属性数量。
3.根据权利要求1所述的一种融合标签数据和朴素贝叶斯分类的推荐方法,其特征在于,生成推荐列表具体包括:考虑标签的扩展性和时间上下文信息这两个因素,其中标签的扩展性即通过计算标签的相似性来对标签的范围进行扩展,利用公式(1)计算;时间上下文信息通过引入衰减函数f(τk);
根据所得目标用户的类别,提取该类别所有用户对物品的平均评分,将此评分作为目标用户的预测评分,将预测评分最高的前N项推荐给用户。
4.一种融合标签数据和朴素贝叶斯分类的推荐系统,其特征在于,包括:
分类模块:用于设置标签数据扩展的阈值,并采用用户标签数据作为用户的属性特征,站在用户的角度,利用统计学和概率论的思想建立用户和标签之间的关联,并将用户和标签之间的关联与朴素贝叶斯分类算法相结合,进而对老用户进行分类:
匹配模块,用于对目标用户进行类别的匹配;
推荐模块:考虑标签的扩展性和时间上下文信息这两个因素,最后计算类别里的用户对物品的平均评分信息,实现Top-N推荐;
考虑标签的扩展性和时间上下文信息这两个因素,最后计算类别里的用户对物品的平均评分信息,实现Top-N推荐;
所述设置标签数据扩展的阈值,具体包括:通过计算标签之间的相似度来设置阈值,对于标签t,令N(t)为打上标签t的物品集,nt,i为给物品i打上标签t的用户数,利用余弦相似度公式计算标签t和标签t'之间的相似度:
根据公式(1)计算出标签t与其相似标签的相似度,设置阈值y,若sim(t,t')>y,则标签t'属于标签t的扩展集;
所述利用基于标签的朴素贝叶斯分类器对用户进行分类,具体包括以下步骤:
(1)先确定用户类别的类先验概率,定义用户类别C(u1,u2,…,ux)∈U(C1,C2,…,Cm),x表示类别C里有x个用户,m表示有m个用户类别;
如公式(3)所示:
(2)估算用户u每个属性即标注的不同标签的条件概率,如公式(4)所示:
式中,SIM(t)表示标签t扩展后的标签集,表示用户u标注标签tk的次数,N(t)表示用户u产生标注标签行为的总次数,f(τk)表示时间衰减函数;
所述对目标用户进行类别的匹配,具体包括:在目标用户进入系统后,提取其兴趣标签,按照利用基于标签的朴素贝叶斯分类器对用户进行分类的步骤和计算公式得到目标用户的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学;重庆信科设计有限公司,未经重庆邮电大学;重庆信科设计有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010194133.2/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置