[发明专利]一种基于LDA算法的社会化网络交互活动用户兴趣挖掘方法有效
申请号: | 201510121622.4 | 申请日: | 2015-03-19 |
公开(公告)号: | CN104850578B | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 陈庭贵;许翀寰;陶婉琼 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州天正专利事务所有限公司33201 | 代理人: | 王兵,黄美娟 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 涉及一种基于LDA算法的社会化网络交互活动用户兴趣挖掘方法,主要适用于对社会化网络中的英文交互信息数据进行处理。首先从社会化网络中爬取所需的用户交互信息数据,对这些数据进行数据处理,其中主要包括单词改错、停止词删除和词干提取,而后获得交互活动文档的数据集。然后采用LDA算法对交互活动文档集进行集群,接着对每个集群和集群中的交互活动文档与预先设定的活动领域进行相关度计算,确定各个集群所属的活动领域,并进一步确定各个交互活动文档所属的活动领域。本发明有效地结合了LDA算法的优点,提出了一种基于LDA算法的社会化网络交互活动用户兴趣挖掘新方法,具有准确性高、简单、便捷等良好的实用价值。 | ||
搜索关键词: | 一种 基于 lda 算法 社会化 网络 交互 活动 用户 兴趣 挖掘 方法 | ||
【主权项】:
基于LDA算法的社会化网络交互活动用户兴趣挖掘的方法,包括以下步骤:步骤1)数据处理:数据处理包括连续的三个步骤:11.是用Aspell工具进行单词改错;12.停止词删除;13.利用Wordnet进行词干提取;经过以上连续的三个步骤,得到由交互活动文档组成的数据集,用D={d1,d2,...,dN}表示,其中N表示交互活动文档的个数;设定用户集用U={u1,u2,...,uK}表示,其中K表示用户的个数,以上两个数据集存在一定的关系,用矩阵表示两者之间的关系,其中元素udij的取值为1或0,取1表示交互文档j中的内容用户i有参与,取0表示交互文档j中的内容用户i未参与;步骤2)LDA算法:给定交互活动文档集D={d1,d2,...,dN}和想要获得的集群的数量M,利用LDA算法将交互活动文档进行集群,输出集群结果集C={c1,c2,...,cM},每个集群中包括一个或多个交互活动文档;步骤3)相关度测量:将活动领域文档定义为A={A1,A2,...,AL},用Sem(cm,Al)表示集群cm与活动领域Al的相关度,用Sem(dn,Al)表示活动文档dn与活动领域Al的相关度;将每个交互活动集群cm的规范化词频标记为R维的向量TFm,其中第R个元素表示词wr在W中的标准频率;在该步骤中计算Sem(cm,Al)与Sem(dn,Al),如下:31.计算Sem(cm,Al)利用标准化的谷歌距离去估算cm与Al的相关性,式子如下:Sem(cm,Al)=Σr=1Rtfrm×google_distance(wr,Al)]]>其中表示词wr在集群cm中的标准频率;google_distance(wr,Al)是词wr和领域名Al间的标准化谷歌距离;两个搜索词x与y间的标准化谷歌距离定义如下:其中M是通过google搜索的网页的总数,f(x)和f(y)分别为搜索主题x与主题y的点击量,f(x,y)是x和y同时存在的网页的数量;计算每个集群cm和每个活动领域Al的相关度,并且事先确定阀值,取超过阀值并且相关度最高的活动领域名称作为该集群的活动名称,如果都小于阀值则归为“其他”类,否则进行步骤32中的计算;32.计算Sem(dn,Al)基于Sem(cm,Al),计算dn与Al相关度Sem(dn,Al),其中dn∈cm,公式如下:Sem(dn,Al)=Sem(cm,Al)×Sim(dn,cm)dn∈cm其中该式表示dn和cm之间的相似性,其中TFm和TFn是cm和dn中的标准化词汇频率向量;步骤4)交互活动领域确定:根据上一步中相关度的计算,先将交互活动领域标签分配给每个集群然后分配到每个集群中的交互活动文档中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510121622.4/,转载请声明来源钻瓜专利网。