[发明专利]基于社交文本的网络舆情话题识别方法和系统有效
申请号: | 202010150112.0 | 申请日: | 2020-03-06 |
公开(公告)号: | CN111506785B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 姜元春;张吉;孙见山;任祖杰;单海军;刘心语;钱洋;梁瑞成 | 申请(专利权)人: | 之江实验室;合肥工业大学 |
主分类号: | G06F16/9032 | 分类号: | G06F16/9032;G06F16/951;G06F40/284;G06N7/01;G06Q50/00;G06Q50/26 |
代理公司: | 北京久诚知识产权代理事务所(特殊普通合伙) 11542 | 代理人: | 余罡 |
地址: | 310000 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 社交 文本 网络 舆情 话题 识别 方法 系统 | ||
1.一种基于社交文本的网络舆情话题识别方法,其特征在于,所述方法由计算机执行,包括以下步骤:
S1、获取多个用户的社交媒体数据的文本集合,并确定所述文本集合的主题数量,包括:
S101、获取|M|条社交文本构成的文本集合D,记为|M|表示文本集合D中的文本数量,一个用户对应一条文本;
S102、对所述文本集合D进行预处理;
S103、基于预处理后的文本集合D建立向量1≤i≤Nm,用来表示集合D中的第m个用户的文本;Dmi表示第m个用户文本中的第i个词,Nm表示第m个用户文本中的单词数;
S104、确定文本集合D中的主题个数K;
S2、基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词,包括:
S201、基于文本集合D中的K个主题,按照公式(1)进行采样从单词V的狄利克雷分布β中抽取主题k∈{1,2,...,K}的主题词分布和噪声词分布
式(1)中:
β和β'是狄利克雷分布的超参数;
S202、对于每个用户的文本m∈{1,2,...,M},按照公式(2)建立文本-主题分布,用向量表示;
式(2)中:
α是狄利克雷分布的超参数;
表示用户文本m中对应的主题分布,服从参数为α的狄利克雷分布;
S203、基于文本的主题分布,利用公式(3)生成主题-单词分布;
式(3)中:
服从参数为γ,γ'的Beta分布,用于选择主题-单词分布,与构成Beta-Multinomial共轭;
cmn是二元指示变量,服从伯努利分布,决定主题-单词分布的超参数,
式(4)中,
zmn服从多项式分布,表示第m条文本的第n个词的主题编号;
当cmn=1时,表示文本Dm是从主题词分布中生成词wmn的;当cmn=0时,表示文本Dm是从噪声词分布中生成词wmn的;
S3、根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计,包括:
S301、设计折叠Gibbs采样算法进行近似后验推断,对潜在参数zmn和cmn进行采样,包括:
S30101、基于贝叶斯准则,使用公式(5)计算单词wmn对应主题zmn的后验概率:
式(5)中:
z-(mn)指除单词wmn外所有单词对应的主题编号;
表示当cmn=1时,单词v被分配到主题k上的次数;
表示当cmn=1时,被分配到主题k上的所有单词数;
表示第m个用户文本中被分配到主题k上的单词数;
所有带有公式-(mn)的计数均表示去除了单词wmn;
γ,γ'表示Beta分布的参数;
S30102、采样二元指示变量cmn,计算条件概率分布,采样二元指示变量cmn,如式(6),二元指示变量cmn是分布选择器,决定了第m篇文本中,生成第n个词所选择的主题词分布;
式(6)中:
表示所有由噪声词分布生成的单词数,去除单词wmn;
表示所有由主题词分布生成的单词数,去除单词wmn;
表示噪声词分布生成单词v的次数,去除单词wmn;
表示噪声词分布生成所有词的次数,去除单词wmn;
表示c=0时表示所有由噪声词分布生成的单词数,去除单词wmn;c=1时表示所有由主题词分布生成的单词数,去除单词wmn;
表示cmn=1时,单词v被分配到主题k上的次数,除去单词单词wmn;
表示噪声词分布生成所有词的次数;
所有带有公式-(mn)的计数均表示去除了单词wmn;
S302、为S301中两个潜在参数zmn和cmn随机初始化值;
S303、按照S301中的样公式(5)(6)依次采样,更新潜在参数zmn和cmn的值;
S304、将步骤S303重复I0次,完成网络舆情话题识别模型中潜在参数的更新,I0是迭代次数;
S4、基于所述潜在参数的值获取所述文本集合中文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室;合肥工业大学,未经之江实验室;合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010150112.0/1.html,转载请声明来源钻瓜专利网。