[发明专利]一种基于词对语义主题模型的社区发现方法及系统在审
申请号: | 202011383171.9 | 申请日: | 2020-12-01 |
公开(公告)号: | CN112632215A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 刘洪涛;王宁 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/9536;G06F40/216;G06F40/289;G06F40/30;G06Q50/00 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 陈栋梁 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 主题 模型 社区 发现 方法 系统 | ||
1.一种基于词对语义主题模型的社区发现方法,其特征在于,包括以下步骤:
S1:对获取的短文本数据集进行预处理,包括对短文本文档去除非文本部分、分词、去除停用词在内的预处理工作,对获取到的数据集中的关系数据集进行处理,包括用户关系处理以及对不活跃用户的剔除,完成用户拓扑结构的构建;
S2:根据给定的社区标签构建BTM主题模型,包括基于社区用户拓扑结构的BTM-R主题模型以及基于社区中的短文本信息内容的语义相似度构建的主题模型BTM-W,其中,BTM-R中文档集是由所有用户构成的集合,词项集是由用户间的关注关系构成的集合,主题即社区的集合,此外,BTM-W中文档集是由所有用户发布的短文本信息构成的集合,词项集是由用户所发布的短文本信息中的不同词项间两两组合即词对的集合,主题即为社区集合;
S3:根据S2得到的模型BTM-R和BTM-W,对文档的主题概率分布同主题的词项概率分布使用狄利克雷分布,以此得到一个基于词对b的联合概率分布其中α,β是狄利克雷分布的超参数,z代表的是词对对应的主题,是关于整个词对集中去除词对b的主题分配,B是所有的词对集合;
S4:根据S3得到的联合概率分布,运用吉布斯采样算法估计给定短文本信息时全局主题的概率分布θ和给定主题时词项的概率分布φ;
S5:根据步骤S4得到的参数进行社区发现,获取社区。
2.根据权利要求1所述的一种基于词对语义主题模型的社区发现方法,其特征在于,所述步骤S1中,对数据的预处理操作,包括以下步骤:
1.1.BTM-R模型的预处理
由于BTM-R模型所定义的好友关系必须为互相关注,因此这里需要对用户的关系数据集进行关注关系的双向化处理,并且移除没有好友的用户;
1.2.BTM-W模型的预处理
从数据集中获取每个用户发布的短文本信息,针对于这些短文本信息,去除非文本部分包括html标签,非英文字符和标点符号,语气助词,借代词;而后对BTM-W语料库使用jieba分词。
3.根据权利要求2所述的一种基于词对语义主题模型的社区发现方法,其特征在于,所述步骤S2的步骤具体包括:
2.求解主题模型的概率分布:
2.1.1:对于每个主题,采样主题z的词项概率分布为φz~Dir(β);
2.1.2:对于所有文档,采样文档的主题概率分布为θ~Dir(α);
2.1.3:对于每个词对,进行随机的主题分配z~Multi(θ);
2.1.4:对于所有词对,抽取两个词概率为ωi,ωj~Multi(φz);
2.1.5:一个词对的联合概率为:P(b)=∑zP(z)P(ωi|z)P(ωj|z);P(z)为主题为z时的概率分布、P(ωi|z)表示为,ωi属于主题为z时的概率;
2.1.6:整个语料库的可能性为:P(B)=Π(i,j)∑zθzφi|zφj|z;
其中,ωi,ωj为分别为词对中的两个元素。φi|z为主题为z时词对i的概率分布、φj|z为主题为z时词对j的概率分布、θz为主题为z时的概率分布,i、j分别表示词对i和词对j。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011383171.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:不锈钢板用具有防错位修复结构的表面着色装置
- 下一篇:超导带材冲裁装置