[发明专利]一种基于梯度提升树的微博谣言检测算法与谣言检测特征集合在审

申请号：	201810576095.X	申请日：	2018-06-06
公开（公告）号：	CN108763574A	公开（公告）日：	2018-11-06
发明（设计）人：	杨波;熊枭	申请（专利权）人：	电子科技大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06Q50/00
代理公司：	暂无信息	代理人：	暂无信息
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	微博检测算法检测特征集合预测训练样本回归训练样本集模型计算模型训练特征构造树模型特征集算法并用发布
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于梯度提升树的微博谣言检测算法与谣言检测特征集合，其特征在于：包含本发明提供的基于梯度提升树的微博谣言检测算法、本发明提供的谣言检测特征集合。

2.根据权利要求1所述的一种基于梯度提升树的微博谣言检测算法与谣言检测特征集合，其特征在于，其中的谣言检测特征集合包含的检测特征为：时间间隔、微博长度、问号数量、感叹号数量、引用数量、括号数量、第一人称词数量、第二人称词数量、第三人称词数量、@数量、话题数量、日期数量、数字数量、表情符数量、好友数量、粉丝数量、相互关注数量、注册时间、所有微博数量、用户影响力、评论数量、转发数量、点赞数量；其中，用户影响力的计算公式如下所示：

3.根据权利要求1所述的一种基于梯度提升树的微博谣言检测算法与谣言检测特征集合，其特征在于，其中的基于梯度提升树的微博谣言检测算法如下：在特征提取后得到的包含N个样本(x_i,y_i)，1≤i≤N的数据集中，其中x_i为样本特征、y_i为样本所属的标签，通过训练得到一个检测模型F_M(x)，然后使用该模型F_M(x)来进行谣言检测，具体步骤如下：

步骤1：特征提取

1)在包含N个样本的数据集中，提取2中的23个谣言检测特征的值；之后对于一个谣言样本x_i，将其标签y_i设置为1，对于非谣言样本x_i，将其标签y_i设置为0；最终得到N个有标签的训练样本(x_i,y_i)，1≤i≤N；

步骤2：通过训练得到检测模型F_M(x)

1)给定一个正整数M，其值代表训练迭代的次数；初始化F₀(x)为一常数，即令F₀(x)＝h₀(0<h₀<1)；令m＝1；

2)当1≤m<M时：

2.1)对于每一样本x_i(1≤i≤N)，更新其标签y_i为的计算方法如下：

2.2)在更新标签后的样本集中，构造一颗回归树h_m(x)，回归树h_m(x)具体构造过程为：

2.2.1)对于特征集合中的每一个特征，每一特征的所有取值，如:(j,s)(其中j为某一特征x^j，s为特征的某个取值)；对于一个划分，将样本集分为R_left和R_right两个区域，其中：

R_left(j,s)＝{x|x^j≤s}，

R_right(j,s)＝{x|x^j>s}

然后，计算每个区域的预测值：

2.2.2)计算该划分的损失L(j,s)：