[发明专利]一种基于主题建模的社会群体间影响力量化方法有效
申请号: | 201910500180.2 | 申请日: | 2019-06-11 |
公开(公告)号: | CN110287485B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 马驰;张怡 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/117;G06Q50/00;G06F40/216 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李素兰 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题 建模 社会群体 影响力 量化 方法 | ||
1.一种基于主题建模的社会群体间影响力量化方法,其特征在于,该方法包括如下步骤:
步骤1,使用DTM模型来提取每个社交群体随时间变化的文本语义,该模型需要提供以按时间排序的文本corpus,和每个时段的文本数目序列slice_time;假设有Group1、...、GroupN个社会群体,分别对应的原始数据C1、...、CN:首先将每个社交群体的原始数据按发布时间排序,从中抽取‘text’字段的内容即每条推特正文内容按顺序保存到txt文件,使用NLTK工具对这些文本进行文本清理、词干化以及去除停用词的预处理;预处理后的文本即为参数corpus的值,然后以2小时为时间片,分别计算每2小时的数据量并保存为数组,即为参数slice_time的值,经过N次DTM主题提取,得到每个社会群体的主题模型M1、...、MN;
步骤2,获取每条原始数据C1、...、CN的主题分布概率,选择概率值最大的主题标号作为该原始数据所属主题的编号进行标注,对标注后的原始数据数据进行结构化处理,生成N个社会群体对应N个数据集corpus1、...、corpusN;
步骤3,计算社会群体Groupi的主题topic-k在t+1时段所受到的其他社会群体的影响,如公式(1)所示:
公式中的每个分项如ftj→i,即为Groupj对在t+1时刻的Groupi的主题topic-k产生的影响力,使用步骤1得到的所求社会群体的主题模型和步骤2得到的结构化数据,来判断社会群体Groupj的推特在t时段里与Groupi的主题topic-k相符的推特,并在后一个时段的所求社会群体的该主题的数据里计数转发这些推特的数量,最终使用该数量值与后一个时段的所求社会群体的符合该主题的所有推特数量之比作为影响力量化值;ftj→i的量化公式如公式(2)所示:
其中,s'表示t时段里Groupj的推特总数,s表示t+1时段里Groupi的主题topic-k的推特总数,用corpusjm表示t时段里Groupj的某一条推特m的文本内容,用模型Mi分析该文本的主题分布概率来判断该文本是否与topic-k有关,如果m的语义符合topic-k,那么Mi(corpusjm)的值为1,反之为0;如果符合,随后计算在t+1时段里的Groupi的主题topic-k的推特中转发m的数量,使用Rt+1i(m,k)表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910500180.2/1.html,转载请声明来源钻瓜专利网。