[发明专利]一种微博子话题用户评论情感倾向性分析方法有效
申请号: | 202010087325.3 | 申请日: | 2020-02-11 |
公开(公告)号: | CN111339247B | 公开(公告)日: | 2022-10-28 |
发明(设计)人: | 朱广丽;李晓庆;张标;徐新燕;张梦瑶;张顺香 | 申请(专利权)人: | 安徽理工大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/289;G06K9/62 |
代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 王戈 |
地址: | 232001 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 微博子 话题 用户 评论 情感 倾向性 分析 方法 | ||
本发明公开了一种微博子话题用户评论情感倾向性分析方法,涉及数据挖掘技术领域,包括:通过网络爬虫获取微博热点时事下的评论文本,再对获取到的数据进行预处理,采用隐含狄利克雷(LDA)模型对文本数据集进行聚类得到子话题候选集,对相似子话题进行融合并输出子话题集及每个文本对应子话题。然后对得到的子话题进行k‑means聚类,对聚类结果进行有效性评价,最后对得到的结果进行人工标注。本发明解决了现有对微博热点话题进行有效的子话题划分及用户评论情感倾向性分析的问题。通过本发明可以得到在一个微博热点事件下用户讨论的子话题,以及每个子话题下用户的评论情感倾向性类别。
技术领域
本发明涉及微博文本聚类领域,尤其涉及一种微博子话题用户评论情感倾向性分析方法。
背景技术
随着互联网和微博的快速发展,微博已经成了人们了解新闻时事的一个重要窗口,人们越来越乐意在微博上对热点话题进行评论和探讨。然而对于某个新闻时事,不同的用户可能有着不同的侧重点,而这些不同的侧重点就是用户讨论或评价该热点时事的子话题。子话题的分类可以以人工的方式来完成,但是现如今互联网的规模十分庞大,每天在不同领域不同地区发生的热点时事数量过于庞大,人工分类的方法已经不能胜任如此繁重的工作。此时,就需要一个能根据某热点时事下的微博评论来对该话题自动进行子话题划分并且判断该子话题下用户情感倾向性类别的方法。
目前,人们对文本主题划分的方法主要是使用隐含狄利克雷分布模型(LDA模型)。隐含狄利克雷模型包含词、主题和文本这三层结构,假设文本到主题和主题到词服从多项式分布,文本的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的。可以利用LDA模型计算每个词对应到每个主题的概率来对主题进行划分,并得到每个主题的一些关键词。但是由于每个热点事件用户讨论的子话题数目不一,需要一种方法来确定最终得到的子话题数目。本文先通过LDA模型得到子话题候选集,再计算集合中子话题之间的相似度来判断是否要对子话题进行融合,多次迭代使用LDA模型并进行子话题融合,最终得到差异性足够大的子话题集以及每个文本对应的子话题。
对于得到的子话题集,还需对每个子话题下的用户评论情感倾向性类别进行分析。目前人们对于情感倾向性类别进行分析常用的方法是基于原型的k-means算法。但是,一般的k-means算法需要设置初始聚类个数k,而k值选取的不同会导致结果的差异较大,所以需要一个能衡量k-means聚类结果好坏的方法。本文通过比较基于簇内相似度的簇间方差来评价聚类结果,最终得到用户评论情感倾向性类别,并具有较好的效果。
发明内容
为了解决上述问题,本发明的目的在于提供一种微博子话题用户评论情感倾向性分析方法。
为了达到上述目的,本发明提供的一种微博子话题用户评论情感倾向性分析方法是按以下步骤进行的:
步骤1:数据获取。获取短文本集合D={D1,D2,...,Dn},Di表示第i个文本,1≤i≤n,n为集合D中的短文本总数;
步骤2:对获取的评论进行预处理;
步骤3:采用LDA模型对微博数据集进行聚类,其基本步骤如下:
步骤3.1:D中每个文档d看作一个单词序列<w1,w2,...,wn>,wi表示第i个单词,设d有n个单词。D中涉及的所有不同单词组成一个词库。先随机地给θd和φt赋值(对所有的d和t)。然后不断重复下列3.2与3.3的迭代步骤,最终收敛到的结果就是LDA的输出;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽理工大学,未经安徽理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010087325.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种视频卡顿识别方法、装置及终端设备
- 下一篇:一种拜占庭容错共识协议