[发明专利]一种用户兴趣模型的建立方法及系统有效
申请号: | 201110206861.1 | 申请日: | 2011-07-22 |
公开(公告)号: | CN102890689A | 公开(公告)日: | 2013-01-23 |
发明(设计)人: | 李楠 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 何青瓦;李庆波 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用户 兴趣 模型 建立 方法 系统 | ||
【技术领域】
本发明涉及互联网应用技术领域,尤其涉及一种用户兴趣模型的建立方法及系统。
【背景技术】
随着计算机和网络技术的发展,互联网中所提供的服务种类也在不断完善。为了向用户提供个性化的服务,互联网服务者通常需要通过挖掘用户历史网络行为信息,得到关于各用户兴趣倾向的模型,从而为用户提供有针对性的服务。对于基于文本或与文本相关的互联网服务中,比如网页搜索、博客、网络百科等,通常是采用基于词项(Term)的方式,表述用户的兴趣模型。所谓Term就是自然语言中,具有基本语意特征的文字片段。用户输入的文字、网页的标题、文章的内容、歌曲名称等等都可以认为是由Term组成的。采用Term表述用户的兴趣是因为,每一种语言中的Term是相对稳定的集合,其数量比Query、语句等等要小得多,可节约存储空间;同时Term比更小的语言元素(单个汉字或英语中的字母)具有更丰富的表意性。
现有的基于Term的用户兴趣模型通常是采用“Term向量”,即向量空间模型(Vector Space Model)的方式进行描述,通过统计用户历史行为,得到表达这个用户兴趣的Term集合,并依据统计信息为每个Term赋予权值。然而用户兴趣通常是多种多样的,具有不同的粒度、清晰度,且具有不可枚举性。为应对用户几乎无数种可能的潜在兴趣,备选的Term通常达到十万或更多。如果把每个Term看作是一个空间的维度,则用户的历史行为就表达成了在这个极高维空间中的一个矢量。
现有用户行为模型所采用的“Term向量”中,并没有针对不同的应用场景进行区分,这就会在针对具体应用场景使用用户兴趣模型时,造成用户兴趣识别的不准确,例如针对一个提供娱乐类服务的网络应用,“Term向量”中与工业、制造、学术等专业相关的Term就会影响娱乐类服务的应用,同时对服务器和客户端都会造成负担和资源的浪费。
【发明内容】
为了解决上述问题,本发明提供了一种用户兴趣模型的建立方法及系统,针对不同的应用场景输出相应的用户兴趣模型,使得用户兴趣模型更加准确,减小服务器和客户端的负担和资源浪费。
具体技术方案如下:
相应地,本发明实施例提供的一种用户兴趣模型的建立方法,该方法包括:
A、根据用户历史行为建立用户的用户兴趣模型,所述用户兴趣模型至少包括:用户兴趣词Term以及各Term的权值;
B、根据具体应用的用户历史行为,建立所述应用对应的Term知识集合,所述Term知识集合包括所述应用对应的Term;
C、用所述应用对应的Term知识集合对所述用户兴趣模型进行特征调整,得到所述用户在所述应用对应的用户兴趣模型。
根据本发明之一优选实施例,步骤A具体包括:
A1、获取用户历史行为的文本信息;
A2、对用户历史行为的文本信息进行分词;
A3、从分词结果中提取表达用户兴趣的Term及Term之间的共现关系,并为Term赋予权值以及为Term之间的共现关系赋予权值,形成所述用户的用户兴趣模型。
根据本发明之一优选实施例,根据Term的词频或者Term的词频-倒文档率为Term赋予权值,并根据Term之间共同出现的次数为Term之间的共现关系赋予权值。
根据本发明之一优选实施例,根据所述用户的兴趣时效性变化,对所述Term的权值进行动态调整;
所述动态调整采取以下策略中的至少一种:
为用户短时或短期网络行为对应的Term的权值设置上限值;
将用户爆发性网络行为对应的Term的权值按照时间进行衰减。
根据本发明之一优选实施例,所述为用户短时或短期网络行为对应的Term的权值设置上限值具体是:
设置短时权值贡献的上限值或短期权值贡献的上限值;
当短时或短期内用户的网络行为出现重复,且使得这段时间内重复行为对应的各个Term的权值总和超过预设的上限值时,则将预设的上限值作为所述各个Term的权值总和,按分配前所述各个Term的权值大小为比例,分配到所述各个Term的权值中。
根据本发明之一优选实施例,将用户爆发性网络行为对应的Term的权值按照时间进行衰减具体为:
将在设定时间段内出现次数相比较在其他时间段内的出现次数高于预设程度的Term的权值按照预设的衰减策略进行衰减,所述预设的衰减策略为:线性衰减或者指数衰减。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110206861.1/2.html,转载请声明来源钻瓜专利网。