[发明专利]一种基于特征聚合的社交网络谣言鉴别方法有效

申请号：	201811634045.9	申请日：	2018-12-29
公开（公告）号：	CN109685153B	公开（公告）日：	2022-07-05
发明（设计）人：	王丽娜;唐奔宵;汪润;王丹磊	申请（专利权）人：	武汉大学
主分类号：	G06V10/762	分类号：	G06V10/762;G06V10/82;G06K9/62;G06N3/04;G06N3/08;G06Q50/00
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	鲁力
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于特征聚合社交网络谣言鉴别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于特征聚合的社交网络谣言鉴别方法，其特征在于，包含以下步骤：

步骤1，根据所需的检测时效性要求，将数据集中的各个样本进行分割；将社交网络中的消息传播描述为事件的集合E＝{E_i}，事件集合中的任意一个事件是一系列与事件相关的消息的集合Ei＝{(m_ij,p_ij,t_ij,l_ij)}，每一条消息都有一个表明其发布时间的时间戳t_ij以及其消息来源p_ij，即消息m_ij转发自消息p_ij，在传播图拓扑结构中，p_ij是m_ij的父节点，l_ij是节点m_ij所在层次；设置谣言检测时效性指标h，为整型常数，表示在事件发生后h小时对事件进行谣言鉴别；每一个事件发生时的时间点为0，保留事件样本从0时刻起，到h小时之间的转发关系，并根据转发关系构建传播图；传播图中，根节点为原始事件的传播者，该条信息的转发者以及类似信息转发者作为根节点的子节点，以此类推构建事件的传播拓扑结构图；

步骤2，根据步骤1所得的数据集，提取每一个事件传播样本的时序传播模式特征；

步骤3，将步骤2中的传播模式特征作为训练输入，构建基于二维卷积神经网络的端到端子模型，其中，二维卷积神经网络模型架构中由下至上可依次划分为2个子层：

子层一、样本数据结构化层：该层将各个样本中所有相关消息按所在传播图中的4个拓扑层级和发布的时间戳映射到对数时间区间，区间数为N，顺序统计个区间中消息数量，各个样本被转化为行数为4列数为N的特征矩阵；

子层二、特征提取层：包括两组卷积层、池化层和Sigmoid激活层,处理特征矩阵使用的二维卷积神经网络的两组卷积层为二维卷积核，2组间感知野大小不同，池化层对特征图各行进行最大池化；

步骤4，根据步骤1所得的数据集，提取每一个事件传播样本的文本内容特征，具体是将样本中消息按发表时间次序均分为W组，W默认为20，每组中消息数量之差不超过1；此后将各组分别视为一个文档，计算各组中出现词在所有样本的所有分组语境下的TF-IDF值，每个分组中选取TF-IDF值前K大的词作为代表本组文本数据的关键特征词；

步骤5，根据步骤4中的样本关键词，构建RNN子模型；针对文本特征的RNN模型从下至上分为2个子层：

子层一、样本数据结构化层：在本子层中，同一个事件中的W个消息文档中的K个关键词首先进入嵌入层(embedding layer)，并得到K个关键词的对应词向量，词向量的长度固定为100；计算K个词向量的均值作为当前文档的特征向量，词向量参与模型的权值更新；

子层二、特征提取层：采用双向门限RNN模型(Gated Recurrent Unit，GRU)，输入由K个长度为100的特征向量组成的向量流构成，每个向量流对应一个迭代单元；

步骤6，根据步骤3和步骤5中的2个子模型，构建特征聚合的谣言鉴别模型，具体是将2个子模型顶层全连接层移除，将子模型全连接层之前的一维中间特征向量进行横向拼接，得到新的一维中间特征向量，并将其重新接入全连接层；模型的输出层为一个神经元，输出值使用sigmoid函数作为激活函数，将预测值映射至0～1间的实数，表示分类置信度；模型在逆向传播时，采用二类交叉熵(Binary Cross Entropy，BCE)作为损失函数；

所述步骤2的具体实现方法是：记事件E_i的最早的消息发布时间为TimeFirst_i，当前时效范围内最晚的消息发布时间为TimeLast_i，将事件E_i的传播周期划分为N个等长时间间隔区间；对时间段按底数为10的对数划分，将各节点时间戳映射到对数空间，使得在传播周期中靠后的区间的时间间隔更长，如式(1)和式(2)所示：

其中，Interval(·)表示事件被划分为N个等长时间区间的长度，N默认值为100，可根据实际样本长度调整，TimeStamp(·)表示消息所在的时间区间索引；

将传播拓扑图中前4层节点新增数量的时序体量作为传播模式特征，即事件E_i的传播模式特征表示为：

SeriesTop(E_i)＝(ST_i¹,ST_i²,ST_i³,ST_i⁴) (3)

其中，SeriesTop(·)表示事件的传播模式特征，ST^L表示第L层上的时序体量，n为特征长度，默认为100。

2.根据权利要求1所述的一种基于特征聚合的社交网络谣言鉴别方法，其特征在于，所述步骤3特征提取层中，第1组卷积层中包含8个大小为2×3的卷积核，并且在特征矩阵的各行进行长度为1的零填充，各列不进行填充，因此在大小为4×M的特征矩阵上进行卷积操作后得到8个大小为3×M的特征图，经过第1层最大池化操作后转化为8个长度为行数为3，列数为M/2的特征图；第2组卷积层共有16个大小为3×3的卷积核，并且在特征矩阵的各行进行长度为1的零填充，各列不进行填充，由上层特征图生成16个长度为行数为1，列数为M/2的特征图，经过第2层最大池化操作后转化为16个长度为M/4的一维特征图.最终的特征图拼接后生成一长度为4M的一维中间特征向量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉大学，未经武汉大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811634045.9/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于DC-SPP-YOLO的图像目标检测方法
下一篇：一种图像数据标注标签的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于特征聚合的社交网络谣言鉴别方法有效

专利文献下载