[发明专利]一种基于LDA算法的社会化网络交互活动用户兴趣挖掘方法有效
申请号: | 201510121622.4 | 申请日: | 2015-03-19 |
公开(公告)号: | CN104850578B | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 陈庭贵;许翀寰;陶婉琼 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州天正专利事务所有限公司33201 | 代理人: | 王兵,黄美娟 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lda 算法 社会化 网络 交互 活动 用户 兴趣 挖掘 方法 | ||
技术领域
本发明涉及互联网技术以及信息处理领域,具体涉及LDA算法和标准化词汇频率向量的相似度计算方法。特别是适用对社会化网络中英文语句交互活动进行领域分配。
技术背景
互联网技术蓬勃发展,海量的信息通过网络进行传输,这与用户的信息获取能力有限形成鲜明的对比,因此为了提高用户从网络中有针对性地获取所需信息的效率,在互联网中逐渐发展出了根据用户的需求和用户特点等进行的推荐服务,而其基础就是用户兴趣挖掘。
社会化网络的发展是互联网技术发展中一个耀眼的点,随着互联网技术的发展,社会化网络逐渐发展成为人们获取信息,进行信息交互的重要渠道。世界上最大的社交化网站是Facebook,其用户数量在2012年10月就已突破10亿。社会化网络的迅速崛起对人们的生活方式也产生了重大的影响,随之出现了社会化网络营销、用户个性化推荐等,而这些新形式的营销与推荐方法都是以用户兴趣为基础进行的。在社会化网络用户的实际应用中,他们往往会受到自身兴趣爱好的影响,比如参与感兴趣话题的讨论,添加或关注有相同兴趣的好友,与好友进行交互等。因此可以通过对用户之间交互信息进行语义解释,确定用户的兴趣领域,以便进一步地根据用户进行精准的营销和推荐等手段。而实际情况较为复杂,因为用户的交互信息可能语句复杂,存在较多歧义,因此对其内容进行解析难度很大。
目前,有采用用户标签的方法进行兴趣挖掘,但这种方法是靠用户的主动标识,根据用户所选择的感兴趣领域来确定其兴趣。而在实际情况中该种方法存在一定的随意性和泛华性,准确度较低,并且对于主动性较弱的用户来说可能根本没有进行兴趣标记,也就无从确定。除此之外,目前采用的一些其他方法往往比较繁琐而且准确率不高,不能很好地定位出用户感兴趣的活动领域。
发明内容
本发明要克服现有方法的上述不足之处,提出一种更加准确、便捷地分配社会化网络中交互活动领域的方法。
本发明所述的基于LDA算法的社会化网络交互活动用户兴趣挖掘的方法,包括以下步骤:
步骤1)数据处理:数据处理包括连续的三个步骤:
11.是用Aspell工具进行单词改错;
12.停止词删除;
13.利用Wordnet进行词干提取。
经过以上连续的三个步骤,得到由交互活动文档组成的数据集,用D={d1,d2,...,dN}表示,其中N表示交互活动文档的个数。设定用户集用U={u1,u2,...,uK}表示,其中K表示用户的个数,以上两个数据集存在一定的关系,用矩阵表示两者之间的关系,其中元素udij的取值为1或0,取1表示交互文档j中的内容用户i有参与,取0表示交互文档j中的内容用户i未参与。
步骤2)LDA算法:给定交互活动文档集D={d1,d2,...,dN}和想要获得的集群的数量M,利用LDA算法将交互活动文档进行集群,输出集群结果集C={c1,c2,...,cM},每个集群中包括一个或多个交互活动文档。
步骤3)相关度测量:将活动领域文档定义为A={A1,A2,...,AL},用Sem(cm,Al)表示集群cm与活动领域Al的相关度,用Sem(dn,Al)表示活动文档dn与活动领域Al的相关度。将每个交互活动集群cm的规范化词频标记为R维的向量TFm,其中第R个元素表示词wr在W中的标准频率。在该步骤中主要计算Sem(cm,Al)与Sem(dn,Al),如下:
31.计算Sem(cm,Al)
利用标准化的谷歌距离去估算cm与Al的相关性,式子如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510121622.4/2.html,转载请声明来源钻瓜专利网。