[发明专利]一种基于关联规则与贝叶斯网络集成的推荐技术在审
申请号: | 201610096873.6 | 申请日: | 2016-02-23 |
公开(公告)号: | CN107103000A | 公开(公告)日: | 2017-08-29 |
发明(设计)人: | 肖建军 | 申请(专利权)人: | 广州启法信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510665 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关联 规则 贝叶斯 网络 集成 推荐 技术 | ||
1.针对商务类网站的智能推荐技术,其特征在于将关联规则与贝叶斯网络集成,基于贝叶斯网络预测当前用户访问各网址的条件概率,找出条件概率最大的N个网址推荐给用户,方法包括以下步骤:首先,对网址进行关联分析,得到关联规则,并按提升度排序,然后,依据关联规则前后件的关系,将关联规则转化成初始贝叶斯网络,再然后对初始贝叶斯网络进行结构学习,寻找最优贝叶斯网络结构,学习最优贝叶斯网络结构的参数,最后使用贝叶斯方法预测当前用户访问未知网址的概率,将概率最大的N个网址推荐给用户。
2.根据权利要求1所述的针对商务类网站的智能推荐技术,其特征在于,所述的将关联规则与贝叶斯网络集成,是对原始事务集使用Apriori算法得到具有单个后件属性状态的关联规则,按提升度排序后,将其转化成贝叶斯网络结构,贝叶斯网的结构是一个有向无环图,图中的每一个节点唯一地对应一个随机变量,节点的状态对应于随机变量的值,图中的有向边表示变量(节点)之间的条件(因果)依赖关系,关联规则的前件和后件间也蕴含着一种依赖关系,转化的思路就是将关联规则中的这种依赖关系用贝叶斯网的结构表示出来。
3.根据权利要求1所述的针对商务类网站的智能推荐技术,其特征在于,所述的贝叶斯预测,将所有网址是否被访问看成一组随机向量变量,当前用户的历史访问记录就是一个样本,结合这个样本数据和参数先验,预测某个网址被访问的概率,变量包含贝叶斯网络节点和非贝叶斯网络节点两部分,假设贝叶斯网络节点条件独立,非贝叶斯网络节点相互独立,贝叶斯网络节点和非贝叶斯网络节点相互独立。
4.根据权利要求1所述的商务类网站的智能推荐技术,所述的将关联规则与贝叶斯网络集成推荐的算法具体步骤如下:
1)数据预处理,在对原始数据的探索分析的基础 上,发现与分析目标无关或模型需要处理的数据,针对此类数据进行处理,通过数据清洗、数据集成和数据变换,将原始数据处理成模型需要的输入数据,其中为用户集,为网址集;
2)关联规则,首先将数据集D转化成事务集DT, 考虑到要与贝叶斯网络对应,本发明只分析具有单个后件属性状态的关联规则前件更新问题,因此Apriori算法只需检索出事务数据库中的所有2项频繁项集,利用频繁项集构造出满足用户最小提升度的规则,并根据提升度将规则按从大到小的顺序排列;
3)将关联规则转化成贝叶斯网络,转化的思路就是将关联规则中的这种依赖关系用贝叶斯网的结构表示出来,关联规则的前件网址和后件网址间蕴含着一种依赖关系 ,贝叶斯网络如果存在从节点指向节点的有向边,则在指向的方向上,的状态条件依赖于的状态,称是的一个父节点,的父节点集可以表示为,关联规则的项与贝叶斯网络的节点是对应的,贝叶斯网络中的点表示的是一个变量,指用户是否浏览网址这个二值变量,而关联规则中的项表示的是这个变量的一个状态,即用户访问网址这个事件,这样依照提升度自上而下就将各节点及其父节点找出来;
4)寻找最优贝叶斯网络,并估计参数,本发明采用MCMC方法学习贝叶斯网络的结构,通过Gibbs抽样算法,将局部的边增加、删除和反向的均匀分布作为抽样过程的建议分布,并利用抽样过程收敛之后产生的来自目标平稳分布的网络结构样本来估计贝叶斯网络的结构特征,构建最优贝叶斯网络,参数的学习实在最优贝叶斯网络结构的基础上进行的,本发明使用贝叶斯方法估计的参数,节点的条件概率分布都是多项式分布,因此参数的共轭先验及其后验分布都是狄利克雷分布,从关联规则的角度来看,贝叶斯网络的学习过程实际上是关联规则的优化过程;
5)贝叶斯预测,目标网址是否被访问是随机变量,变量分为贝叶斯网络节点和非贝叶斯网络节点,非贝叶斯网络节点相互独立,非贝叶斯网络节点和贝叶斯网络节点相互独立,所以若是非贝叶斯节点,预测值是其边缘概率;贝叶斯网络节点条件独立,贝叶斯网络节点和非贝叶斯网络节点相互独立,若是贝叶斯节点,预测值是条件概率的乘积;
6)做出推荐,将个网址的预测值排序,从中选出预测值top-N的网址推荐给当前用户,然后对模型从精度和时效两方面进行评价,统计精度方法采用指标平均绝对误差(MAE),决策支持精度指标采用精确率(precision)和召回率(recall),时效用响应时间来衡量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州启法信息科技有限公司,未经广州启法信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610096873.6/1.html,转载请声明来源钻瓜专利网。