[发明专利]一种基于特征聚合的社交网络谣言鉴别方法有效
申请号: | 201811634045.9 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109685153B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 王丽娜;唐奔宵;汪润;王丹磊 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06V10/762 | 分类号: | G06V10/762;G06V10/82;G06K9/62;G06N3/04;G06N3/08;G06Q50/00 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 鲁力 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 聚合 社交 网络 谣言 鉴别方法 | ||
1.一种基于特征聚合的社交网络谣言鉴别方法,其特征在于,包含以下步骤:
步骤1,根据所需的检测时效性要求,将数据集中的各个样本进行分割;将社交网络中的消息传播描述为事件的集合E={Ei},事件集合中的任意一个事件是一系列与事件相关的消息的集合Ei={(mij,pij,tij,lij)},每一条消息都有一个表明其发布时间的时间戳tij以及其消息来源pij,即消息mij转发自消息pij,在传播图拓扑结构中,pij是mij的父节点,lij是节点mij所在层次;设置谣言检测时效性指标h,为整型常数,表示在事件发生后h小时对事件进行谣言鉴别;每一个事件发生时的时间点为0,保留事件样本从0时刻起,到h小时之间的转发关系,并根据转发关系构建传播图;传播图中,根节点为原始事件的传播者,该条信息的转发者以及类似信息转发者作为根节点的子节点,以此类推构建事件的传播拓扑结构图;
步骤2,根据步骤1所得的数据集,提取每一个事件传播样本的时序传播模式特征;
步骤3,将步骤2中的传播模式特征作为训练输入,构建基于二维卷积神经网络的端到端子模型,其中,二维卷积神经网络模型架构中由下至上可依次划分为2个子层:
子层一、样本数据结构化层:该层将各个样本中所有相关消息按所在传播图中的4个拓扑层级和发布的时间戳映射到对数时间区间,区间数为N,顺序统计个区间中消息数量,各个样本被转化为行数为4列数为N的特征矩阵;
子层二、特征提取层:包括两组卷积层、池化层和Sigmoid激活层,处理特征矩阵使用的二维卷积神经网络的两组卷积层为二维卷积核,2组间感知野大小不同,池化层对特征图各行进行最大池化;
步骤4,根据步骤1所得的数据集,提取每一个事件传播样本的文本内容特征,具体是将样本中消息按发表时间次序均分为W组,W默认为20,每组中消息数量之差不超过1;此后将各组分别视为一个文档,计算各组中出现词在所有样本的所有分组语境下的TF-IDF值,每个分组中选取TF-IDF值前K大的词作为代表本组文本数据的关键特征词;
步骤5,根据步骤4中的样本关键词,构建RNN子模型;针对文本特征的RNN模型从下至上分为2个子层:
子层一、样本数据结构化层:在本子层中,同一个事件中的W个消息文档中的K个关键词首先进入嵌入层(embedding layer),并得到K个关键词的对应词向量,词向量的长度固定为100;计算K个词向量的均值作为当前文档的特征向量,词向量参与模型的权值更新;
子层二、特征提取层:采用双向门限RNN模型(Gated Recurrent Unit,GRU),输入由K个长度为100的特征向量组成的向量流构成,每个向量流对应一个迭代单元;
步骤6,根据步骤3和步骤5中的2个子模型,构建特征聚合的谣言鉴别模型,具体是将2个子模型顶层全连接层移除,将子模型全连接层之前的一维中间特征向量进行横向拼接,得到新的一维中间特征向量,并将其重新接入全连接层;模型的输出层为一个神经元,输出值使用sigmoid函数作为激活函数,将预测值映射至0~1间的实数,表示分类置信度;模型在逆向传播时,采用二类交叉熵(Binary Cross Entropy,BCE)作为损失函数;
所述步骤2的具体实现方法是:记事件Ei的最早的消息发布时间为TimeFirsti,当前时效范围内最晚的消息发布时间为TimeLasti,将事件Ei的传播周期划分为N个等长时间间隔区间;对时间段按底数为10的对数划分,将各节点时间戳映射到对数空间,使得在传播周期中靠后的区间的时间间隔更长,如式(1)和式(2)所示:
其中,Interval(·)表示事件被划分为N个等长时间区间的长度,N默认值为100,可根据实际样本长度调整,TimeStamp(·)表示消息所在的时间区间索引;
将传播拓扑图中前4层节点新增数量的时序体量作为传播模式特征,即事件Ei的传播模式特征表示为:
SeriesTop(Ei)=(STi1,STi2,STi3,STi4) (3)
其中,SeriesTop(·)表示事件的传播模式特征,STL表示第L层上的时序体量,n为特征长度,默认为100。
2.根据权利要求1所述的一种基于特征聚合的社交网络谣言鉴别方法,其特征在于,所述步骤3特征提取层中,第1组卷积层中包含8个大小为2×3的卷积核,并且在特征矩阵的各行进行长度为1的零填充,各列不进行填充,因此在大小为4×M的特征矩阵上进行卷积操作后得到8个大小为3×M的特征图,经过第1层最大池化操作后转化为8个长度为行数为3,列数为M/2的特征图;第2组卷积层共有16个大小为3×3的卷积核,并且在特征矩阵的各行进行长度为1的零填充,各列不进行填充,由上层特征图生成16个长度为行数为1,列数为M/2的特征图,经过第2层最大池化操作后转化为16个长度为M/4的一维特征图.最终的特征图拼接后生成一长度为4M的一维中间特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811634045.9/1.html,转载请声明来源钻瓜专利网。