[发明专利]一种基于梯度提升树的微博谣言检测算法与谣言检测特征集合在审
申请号: | 201810576095.X | 申请日: | 2018-06-06 |
公开(公告)号: | CN108763574A | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 杨波;熊枭 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 微博 检测算法 检测 特征集合 预测 训练样本 回归 训练样本集 模型计算 模型训练 特征构造 树模型 特征集 算法 并用 发布 | ||
1.一种基于梯度提升树的微博谣言检测算法与谣言检测特征集合,其特征在于:包含本发明提供的基于梯度提升树的微博谣言检测算法、本发明提供的谣言检测特征集合。
2.根据权利要求1所述的一种基于梯度提升树的微博谣言检测算法与谣言检测特征集合,其特征在于,其中的谣言检测特征集合包含的检测特征为:时间间隔、微博长度、问号数量、感叹号数量、引用数量、括号数量、第一人称词数量、第二人称词数量、第三人称词数量、@数量、话题数量、日期数量、数字数量、表情符数量、好友数量、粉丝数量、相互关注数量、注册时间、所有微博数量、用户影响力、评论数量、转发数量、点赞数量;其中,用户影响力的计算公式如下所示:
3.根据权利要求1所述的一种基于梯度提升树的微博谣言检测算法与谣言检测特征集合,其特征在于,其中的基于梯度提升树的微博谣言检测算法如下:在特征提取后得到的包含N个样本(xi,yi),1≤i≤N的数据集中,其中xi为样本特征、yi为样本所属的标签,通过训练得到一个检测模型FM(x),然后使用该模型FM(x)来进行谣言检测,具体步骤如下:
步骤1:特征提取
1)在包含N个样本的数据集中,提取2中的23个谣言检测特征的值;之后对于一个谣言样本xi,将其标签yi设置为1,对于非谣言样本xi,将其标签yi设置为0;最终得到N个有标签的训练样本(xi,yi),1≤i≤N;
步骤2:通过训练得到检测模型FM(x)
1)给定一个正整数M,其值代表训练迭代的次数;初始化F0(x)为一常数,即令F0(x)=h0(0<h0<1);令m=1;
2)当1≤m<M时:
2.1)对于每一样本xi(1≤i≤N),更新其标签yi为的计算方法如下:
2.2)在更新标签后的样本集中,构造一颗回归树hm(x),回归树hm(x)具体构造过程为:
2.2.1)对于特征集合中的每一个特征,每一特征的所有取值,如:(j,s)(其中j为某一特征xj,s为特征的某个取值);对于一个划分,将样本集分为Rleft和Rright两个区域,其中:
Rleft(j,s)={x|xj≤s},
Rright(j,s)={x|xj>s}
然后,计算每个区域的预测值:
2.2.2)计算该划分的损失L(j,s):
2.2.3)在所有的划分中,寻找一个最优划分(j,s)*,使得损失L(j,s)最低;
并使用该划分将数据分为两个区域;
2.2.4)递归地进行数据区域划分,直到回归树的深度达到P,此时得到回归树hm(x);
2.3)计算hm(x)的权重γm,具体计算方法如下:
其中L为损失函数,定义如下:
2.4)得到Fm(x),具体计算方法如下:
Fm(x)=Fm-1(x)+αγmhm(x)
其中,α为平滑参数(0<α≤1);
2.5)将m的值加1,转到步骤2的2);
3)当m=M时,得到检测模型FM(x),如下式所示:
步骤3:进行谣言检测
对于一条无标签的微博博文x,计算FM(x);给定一个决策阈值θ,若FM(x)>θ,则x属于谣言博文;若FM(x)≤θ,则x属于非谣言博文。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810576095.X/1.html,转载请声明来源钻瓜专利网。