[发明专利]一种基于LDA主题模型的OSN社区发现方法在审

专利信息
申请号: 201510611455.1 申请日: 2015-09-23
公开(公告)号: CN105302866A 公开(公告)日: 2016-02-03
发明(设计)人: 曹玖新;马卓;陈巧云;刘波;周涛 申请(专利权)人: 东南大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27;G06Q50/00
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 柏尚春
地址: 210096 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 lda 主题 模型 osn 社区 发现 方法
【说明书】:

技术领域

发明涉及一种利用了隐形狄利克雷分布(LatentDirichletAllocation,简称LDA)主题模型的在线社交网络(OnlineSocialNetwork,简称OSN)社区发现机制,属于社会计算领域,特别是社区发现领域。

背景技术

随着互联网的高速发展,网络由最初的以数据为核心逐渐转变为以人为核心,这促进了在线社交网络的迅猛发展。在线社交网络区别于传统的人际关系网络,不仅拥有大规模用户及其好友关系,还拥有大量的用户自发表达的文字信息,这给社区发现工作带来了新的生机和挑战。

传统的社区发现方法主要基于连接,即图的拓扑结构,这种方法通过分析个体之间的显式连接进行社区划分,所发现的社区内部节点之间连接相对紧密,不同社区之间连接相对稀疏,但这种方法并没有考虑到用户的主题特性。在微博中,用户的推文通常隐含了用户的兴趣爱好、行为模式等信息,而自然语言处理中所使用到的主题模型可以将这些因素考虑在内。

发明内容

发明目的:针对现有技术中存在的问题,本发明一种基于LDA主题模型的社区发现方法,在不依靠网络拓扑连接信息的基础上,通过挖掘用户微博语义信息得到相应的概率模型,同时引入微博内容语义相似性,有效描述了用户兴趣爱好的概率分布情况;引入社区内部拓扑连接紧密性,挖掘内部拓扑连接相对十分紧密的社区。

技术方案:为了解决上述问题,本发明提出一种基于LDA主题模型的OSN社区发现方法,利用在线社交网络中用户与其好友的关系以及用户自发表达的文字信息进行OSN社区发现过程,包括如下步骤:

1)进行数据集预处理,对原始用户微博文档进行分词、去停顿词、去噪等预处理工作,具体的,从weibo数据集中抽取每条记录的[uid,text]字段,并根据uid对所有微博进行归类,每条记录的格式为[uid,text1;text2;……],使用中科院计算所汉语词法分析系统ICTCLAS2013版进行分词,在分词过程中,去除停顿词以及对于模型而言没有实际意义的词语(如URL、标点符号、语气词等),同时去除微博表情符号;对记录用户关系的文档中的followers数据集进行用户关系双向化处理并剔除没有好友的用户,每条记录的格式为[user,friend1;friend2;......];

2)根据既定社区元素构建LDA主题模型,包括基于社区内部微博内容语义相似性构建的主题模型LDA-T和基于拓扑连接紧密性构建的主题模型LDA-F,所述LDA-T中词项集是由用户所有推文中的词项构成的集合,文档集是由所有用户的推文构成的集合,主题为社区的集合,所述LDA-F中词项集是由用户的所有好友构成的集合,文档集是由所有用户构成的集合,主题是社区的集合;

3)根据步骤2得到的模型LDA-T和LDA-F,对文档下主题概率分布以及主题下词项概率分布施加Dirichlet分布,生成基于超参数的联合概率分布p(wm,zm,θm,Φ|α,β),其中,α和β是Dirichlet分布的超参数,wm表示第m篇文档中所有词项的集合,zm表示第m篇文档中所有词项对应的主题的集合,θm表示第m篇文档的主题概率分布,Φ表示所有主题下的词项概率分布的集合;

4)根据步骤3得到的联合概率分布,利用吉布斯采样算法估计给定文档时主题的概率分布θm和给定主题时词项的概率分布

5)根据步骤4得到的参数获取社区。

所述步骤2中LDA模型中文档的生成过程和参数约定为:

1)对每个主题k∈[1,K],采样主题k的词项概率分布

2)对每个文档m∈[1,M],采样文档m的主题概率分布θm~Dir(α);

3)对每个文档m∈[1,M],采样文档m的长度Nm~Poiss(ξ);

4)对每个文档m中的词项n∈[1,Nm],选择隐含的主题zm,n~Mult(θm),生成一个词项

其中,Nm表示第m篇文档所包含的词项数,K表示主题数目,M表示文档数目,α、β、ξ为概率分布的参数。

所述步骤3生成的联合概率分布为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510611455.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top