[发明专利]一种基于梯度提升树的微博谣言检测算法与谣言检测特征集合在审
申请号: | 201810576095.X | 申请日: | 2018-06-06 |
公开(公告)号: | CN108763574A | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 杨波;熊枭 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 微博 检测算法 检测 特征集合 预测 训练样本 回归 训练样本集 模型计算 模型训练 特征构造 树模型 特征集 算法 并用 发布 | ||
本发明公开了一种基于梯度提升树的微博谣言检测算法与谣言检测特征集合。提供了谣言检测的特征集合,包含23个特征。提供了一种基于梯度提升树的谣言检测算法,该算法首先按照特征集中的特征构造训练样本,训练样本用于微博谣言检测模型训练;然后在训练样本集上进行多次训练得到多个回归树模型,每棵回归树给出一个预测值,结合多颗回归树的预测值得到最终的微博谣言检测模型;进行谣言检测时,按特征集提取该待预测微博的特征,并用检测模型计算得出对该待预测微博的预测值,根据预测值判断该待预测微博属于谣言微博或者非谣言微博。与现有的微博谣言检测算法相比,本发明所提供的一种基于梯度提升树的微博谣言检测算法与谣言检测特征集合能够带来更高的谣言检测精度,尤其是在谣言被发布的早期,检测精度显著高于现有的微博谣言检测算法。
技术领域
本发明涉及微博谣言检测的技术领域,具体涉及一种基于梯度提升树的微博谣言检测算法与谣言检测特征集合。
背景技术
微博信息多元化、言论自由、爆炸式地传播速度等特点助长了谣言消息的生成和传播,使得微博成为了虚假不实消息传播的理想场所。为了检测谣言并及时制止谣言的传播,谣言检测的相关算法应运而生。
现有的微博谣言检测算法检测精度不够高,尤其是在谣言被发布的早期的检测精度较低。这是现有的微博谣言检测算法的一个重要不足。
发明内容
针对现有微博谣言检测算法存在的不足,本发明提供了一种基于梯度提升树的微博谣言检测算法与谣言检测特征集合。与现有的微博谣言检测算法相比,本发明所提供的一种基于梯度提升树的微博谣言检测算法与谣言检测特征集合能够带来更高的谣言检测精度,尤其是在谣言被发布的早期,检测精度显著高于现有的微博谣言检测算法。
本发明的特征在于包含以下内容:
1、谣言检测的特征集合。并使用该特征集合进行谣言检测。与现有的微博谣言检测算法相比,本发明构造的检测特征有助于提高谣言早期检测的检测精度。具体的特征集合见表1。
表1
2、一种基于梯度提升树的谣言检测算法。采用梯度提升树算法(即图1中的S1、S2,详见S1.1-S1.2,S2.1-S2.6)。首先按照表1的特征进行特征提取,得到训练样本集。然后在训练数据集上训练得到多颗回归树模型,根据公式(1)计算每一颗回归树的权重,并按照公式(2)更新样本的标签值。重复进行标签更新和回归树的训练,最终得到多颗回归树,按照公式(3)结合多颗回归树得到最终的检测模型。最终使用公式(4)对一个未知标签的微博博文进行标签预测。
附图说明
图1是本发明提供的一种基于梯度提升树的微博谣言检测算法的流程图。
图2是图1中S1的流程图。
图3是图1中S2的流程图。
本发明所用到的符号说明:
xi-样本i的特征
yi-样本i的标签
N-训练样本数量
γm-第m棵回归树的权重
α-平滑参数
h0-初始预测值
L-代价(损失)函数
-第m轮迭代样本xi的标签
FM(x)-最终的预测模型
θ-用于决策输出标签的阈值
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810576095.X/2.html,转载请声明来源钻瓜专利网。