[发明专利]基于用户兴趣挖掘的微博词云生成方法及访问支持系统有效
申请号: | 201410020292.5 | 申请日: | 2014-01-16 |
公开(公告)号: | CN103793481B | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 汪美玲;陶秋铭;周翔;李梅;赵琛 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙)11200 | 代理人: | 余长江 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 用户 兴趣 挖掘 微博词云 生成 方法 访问 支持系统 | ||
1.一种基于用户兴趣挖掘的微博词云生成方法,其步骤包括:
1)给定当前登录用户所关注用户新发布的一个微博消息集,从所述微博消息集中抽取出一个关键词集;
2)分别基于用户关系、基于关键词的相似度计算所述当前登录用户对所述关键词集中各个关键词的兴趣度,并将计算所得的两种兴趣度融合,得到最终兴趣度;
3)根据兴趣度的值从所述关键词集中选择k个关键词,其中k为事先给定的正整数,并在一个区域内显示所选择出的k个关键词,以将所述k个关键词构成的微博词云可视化地呈现给用户。
2.如权利要求1所述的方法,其特征在于,步骤1)中抽取关键词集的方法是:令初始关键词集为空,对所述微博消息集中每条微博消息的文本进行分词,去掉其中与该微博消息的主要内容无关的词语,包括助词、介词、连词、语气词和叹词,保留反映该微博消息的主要内容的词语,包括描述事件、主题、人物和地点的词语,并将所保留的全部关键词加入关键词集中。
3.如权利要求1所述的方法,其特征在于,步骤2)计算所述兴趣度的步骤包括:
2a)基于用户关系计算当前登录用户u对所述关键词集中任意关键词w的兴趣度,u与对w感兴趣的微博用户越相似,则u对w越有可能具有较高的兴趣度:
首先,对于u及其任意关注用户v,将用户基本信息、所关注用户或者发布、评价、转发的微博消息中所包含的关键词作为特征,以特征集合为依据,利用集合之间的相似关系计算u与v之间的相似度s1(u,v);
其次,根据一个关键词在一个用户过去一段时间内发布、评价、转发的微博消息中所出现的频率计算v对w的兴趣因子p(v,w),该时间段可由所述当前登录用户配置;
最后,对于u所关注的全部用户,根据u与这些用户的相似度以及这些用户对w的兴趣因子,计算u对w的兴趣度,其公式如下:
其中U表示u所关注的全部用户的集合;
2b)基于关键词的相似度计算所述当前登录用户u对所述关键词集中任意关键词w的兴趣度,w与u之前感兴趣的关键词越相似,则u对w越有可能具有较高的兴趣度:
首先,对于u之前发布、评价、转发的微博消息中所包含的任意关键词w',依据关键词所出现在的微博消息集合之间的相似关系,计算w与w'之间的相似度s2(w,w');
其次,根据一个关键词在一个用户过去一段时间内发布、评价、转发的全部微博消息中所出现的频率计算u对w'的兴趣因子p(u,w'),该时间段可由所述当前登录用户配置;
最后,对于u发布、评价、转发的全部微博消息中所包含的关键词,根据w与这些关键词的相似度以及u对这些关键词的兴趣因子,计算u对w的兴趣度,其公式如下:
其中W(u)表示u发布、评价、转发的全部微博消息中所包含的关键词的集合;
2c)将基于用户关系计算的兴趣度与基于关键词的相似度计算的兴趣度融合,计算u对w的最终兴趣度,其公式如下:
f(u,w)=λ·fr(u,w)+(1-λ)·fs(u,w),其中0≤λ≤1是权重系数。
4.如权利要求3所述的方法,其特征在于:步骤2c)取λ=0.5,表示两种兴趣度具有相同的权重值。
5.如权利要求1所述的方法,其特征在于:步骤3)选择的k个关键词是兴趣度最高的k个关键词,k远远小于所述关键词集的大小。
6.如权利要求1所述的方法,其特征在于,步骤3)显示所选择出的k个关键词的步骤包括:
3a)按照兴趣度大小、字母顺序或随机顺序排列各个关键词;
3b)依据兴趣度大小决定各个关键词显示时的字体大小,计算关键词w的字体大小z(w)的公式如下:
其中fmin与fmax分别表示k个关键词中的最小兴趣度与最大兴趣度,zmin与zmax分别表示显示的最小字体与最大字体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410020292.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:路径搜索方法及装置
- 下一篇:基于MVC的分页查询系统