[发明专利]一种基于LDA和随机森林的微博谣言识别方法有效
申请号: | 201711483228.0 | 申请日: | 2017-12-29 |
公开(公告)号: | CN108090046B | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 曾子明;王婧 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/35 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 薛玲 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于LDA和随机森林的微博谣言识别方法,使用爬虫方法从微博官方平台上收集微博数据并进行人工标注;通过文本内容数据处理以及z‑score标准化微博数据以计算用户可信度特征和微博影响力特征;通过LDA优化文本内容与主题分布概率以及LDA主题与优化文本内容词语分布概率计算困惑度;进一步构建构建微博特征向量;通过用户可信度特征、微博影响力特征、LDA优化文本内容与主题分布概率作为随机森林模型的输入特征以建立微博谣言分类器。本发明深入挖掘了微博文本语义信息且谣言分类精度高。 | ||
搜索关键词: | 一种 基于 lda 随机 森林 谣言 识别 方法 | ||
【主权项】:
1.一种基于LDA和随机森林的微博谣言识别方法,其特征在于,包括以下步骤:步骤1,使用爬虫方法从微博官方平台上收集微博数据,所述微博数据包括文本内容、点赞数、转发数、评论数、微博数、关注数、粉丝数、认证状态、谣言状态,根据微博官方平台和国家部门发布的谣言信息对微博数据进行人工标注;步骤2,根据步骤1中所述文本内容进行无关字符过滤、文本分词、去停用词、数据变换处理,从而获得优化文本内容以及优化文本内容词组,并统计优化文本内容词语的数量,通过优化文本内容、优化文本内容词语、优化文本内容词语的数量以及z-score标准化处理步骤1中所述的点赞数、转发数、评论数、微博数、关注数、粉丝数从而得到z-score标准化微博数据,并根据z-score标准化微博数据计算用户可信度特征和微博影响力特征;步骤3,通过LDA主题模型对步骤2所述优化文本内容以及优化文本内容词语进行建模计算,从而获得LDA主题分布概率、LDA优化文本内容与主题分布概率以及LDA优化文本内容词语与主题分布概率,将LDA优化文本内容与主题分布概率作为谣言识别的文本深层语义特征,并根据LDA优化文本内容与主题分布概率以及LDA主题与优化文本内容词语分布概率计算困惑度;步骤4,根据步骤2中所述用户可信度特征、步骤2中所述微博影响力特征、步骤3中所述LDA主题分布概率,构建微博特征向量;步骤5,根据步骤2中所述用户可信度特征、步骤2中所述微博影响力特征、步骤3中所述LDA优化文本内容与主题分布概率作为随机森林模型的输入特征,使用10折交叉验证的网格搜索算法计算基于CART决策树的随机森林模型的最优参数,所述最优参数结合步骤4中所述微博特征向量设计微博谣言分类器,并根据步骤1中所述人工标注的微博数据进行训练得到最终微博谣言分类器,应用于谣言甄别工作。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711483228.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种分词方法、装置及可读存储介质
- 下一篇:一种文本相似度的确定方法及设备