[发明专利]基于用户浏览行为的用户兴趣建模方法无效
申请号: | 201010118484.1 | 申请日: | 2010-03-05 |
公开(公告)号: | CN101770520A | 公开(公告)日: | 2010-07-07 |
发明(设计)人: | 孙雁飞;宫婷;姚蓓丽;张顺颐;王攀 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 许方 |
地址: | 210046 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 用户 浏览 行为 兴趣 建模 方法 | ||
技术领域
本发明是针对用户兴趣建模方法的研究,主要研究如何基于用户的浏览行为来有效获取用户的兴趣信息,并设计了用户兴趣建模的相关算法,涉及到流量识别、Web挖掘、用户行为分析、机器学习、数据挖掘和自然语言等多领域。
背景技术
个性化推荐服务是新一代的信息服务,是信息服务发展的趋势,通过研究不同用户的兴趣,主动为用户推荐最需要的资源,就能更好地解决互联网信息日益庞大却无法满足用户需求的矛盾。用户兴趣模型已经成为个性化推荐服务的核心和关键技术。
用户兴趣模型不是对用户个体的一般性描述,而是一种具有面向算法、特定数据结构、形式化的用户描述。良好的用户兴趣模型可以为个性化推荐服务提供更有力的支持。现在的用户兴趣建模方法还存在很多不足,主要表现在:
(1)大多数用户兴趣建模方法放大或缩小网页对用户兴趣表达的重要性。
(2)目前用户兴趣模型更新所采用的方法要么过于强调用户兴趣的即时性,忽略了持久性;要么过于注重时间因素,而忽略主动发现用户新的兴趣。
由上可见,采用传统用户兴趣建模方法很难准确的识别用户的兴趣。因此,必须另辟蹊径。
发明内容
技术问题:本发明的目的是设计针对用户浏览行为建立用户兴趣模型的方法。通过挖掘和分析用户的网络浏览行为,分析其访问模式、行为习惯和喜好趋向,根据用户行为的分析结果,向用户提供更加富有个性和亲和力的业务。
技术方案:本发明提出了一种基于用户浏览行为的用户兴趣建模方法,其特征在于该方法的步骤为:
A.显式构建用户兴趣模型:未注册的用户先通过用户注册填写个人信息及兴趣爱好来构建初始用户兴趣模型,已注册的用户直接登录即可;
B.隐式更新用户兴趣模型:根据用户浏览过的网页隐式完善和更新用户兴趣模型,其过程如下:
1)训练过程:训练过程是指完成训练集文档的向量表示过程,在训练过程中,训练集实例经过网页预处理、中文分词和特征选取处理后被表示成第一向量的形式,行成特征向量集,该特征向量集用来描述类别模式,在分类过程中使用;
2)历史网页处理过程:历史访问库中存储用户访问web的历史记录,这些历史网页经过网页预处理、中文分词并表示成第二向量;
3)页面分类:所述第一向量和第二向量按照KNN分类算法对待分类的用户历史文档进行分类,取最相近者的类别作为用户感兴趣的类别;
4)兴趣更新:比较用户原有兴趣类别与页面分类得到的新的兴趣类别,按照兴趣模型更新算法对用户兴趣进行更新。
所述显式构建用户兴趣模型的方法如下:
a)将用户兴趣树的根结点初始化为用户名,权重置为1;
b)计算一级兴趣结点的权重:统计用户注册时选择的兴趣类别个数n,则每个一级兴趣类别Ci的权重为1/n,其中Ci∈C;
c)计算二级兴趣结点的权重:统计一级兴趣类别Ci包含二级兴趣类别cj的个数m,则二级兴趣类别cj的权重为1/nm,其中cj∈Ci∈C,i∈[1,n],j∈[1,m];
d)计算特征项T2的权重:统计二级兴趣类别cj中包含的特征项T2个数p,则二级兴趣类别cj中每个特征项T2的权重为1/nmp;
其中,C为兴趣总类别。
所述隐式更新用户兴趣模型的兴趣模型更新还包括如下方法:
i.对用户感兴趣的Web文档做网页预处理,提取特征项T1,计算特征项T1的权重,将该文档表示成第二向量,记作Dnew;
ii.依据兰式距离分类算法,计算Dnew与用户兴趣树中的每个二级兴趣类别cj之间的兰式距离,得到与Dnew相关度最大的二级兴趣类别,记作ck,而ck中的特征项T2将ck表示成第三向量Dck;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010118484.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种虚拟交易中可信证据的采集方法
- 下一篇:一种基于数据块比较的数据更新方法