[发明专利]一种基于特征聚合的社交网络谣言鉴别方法有效

专利信息
申请号: 201811634045.9 申请日: 2018-12-29
公开(公告)号: CN109685153B 公开(公告)日: 2022-07-05
发明(设计)人: 王丽娜;唐奔宵;汪润;王丹磊 申请(专利权)人: 武汉大学
主分类号: G06V10/762 分类号: G06V10/762;G06V10/82;G06K9/62;G06N3/04;G06N3/08;G06Q50/00
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 鲁力
地址: 430072 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 特征 聚合 社交 网络 谣言 鉴别方法
【权利要求书】:

1.一种基于特征聚合的社交网络谣言鉴别方法,其特征在于,包含以下步骤:

步骤1,根据所需的检测时效性要求,将数据集中的各个样本进行分割;将社交网络中的消息传播描述为事件的集合E={Ei},事件集合中的任意一个事件是一系列与事件相关的消息的集合Ei={(mij,pij,tij,lij)},每一条消息都有一个表明其发布时间的时间戳tij以及其消息来源pij,即消息mij转发自消息pij,在传播图拓扑结构中,pij是mij的父节点,lij是节点mij所在层次;设置谣言检测时效性指标h,为整型常数,表示在事件发生后h小时对事件进行谣言鉴别;每一个事件发生时的时间点为0,保留事件样本从0时刻起,到h小时之间的转发关系,并根据转发关系构建传播图;传播图中,根节点为原始事件的传播者,该条信息的转发者以及类似信息转发者作为根节点的子节点,以此类推构建事件的传播拓扑结构图;

步骤2,根据步骤1所得的数据集,提取每一个事件传播样本的时序传播模式特征;

步骤3,将步骤2中的传播模式特征作为训练输入,构建基于二维卷积神经网络的端到端子模型,其中,二维卷积神经网络模型架构中由下至上可依次划分为2个子层:

子层一、样本数据结构化层:该层将各个样本中所有相关消息按所在传播图中的4个拓扑层级和发布的时间戳映射到对数时间区间,区间数为N,顺序统计个区间中消息数量,各个样本被转化为行数为4列数为N的特征矩阵;

子层二、特征提取层:包括两组卷积层、池化层和Sigmoid激活层,处理特征矩阵使用的二维卷积神经网络的两组卷积层为二维卷积核,2组间感知野大小不同,池化层对特征图各行进行最大池化;

步骤4,根据步骤1所得的数据集,提取每一个事件传播样本的文本内容特征,具体是将样本中消息按发表时间次序均分为W组,W默认为20,每组中消息数量之差不超过1;此后将各组分别视为一个文档,计算各组中出现词在所有样本的所有分组语境下的TF-IDF值,每个分组中选取TF-IDF值前K大的词作为代表本组文本数据的关键特征词;

步骤5,根据步骤4中的样本关键词,构建RNN子模型;针对文本特征的RNN模型从下至上分为2个子层:

子层一、样本数据结构化层:在本子层中,同一个事件中的W个消息文档中的K个关键词首先进入嵌入层(embedding layer),并得到K个关键词的对应词向量,词向量的长度固定为100;计算K个词向量的均值作为当前文档的特征向量,词向量参与模型的权值更新;

子层二、特征提取层:采用双向门限RNN模型(Gated Recurrent Unit,GRU),输入由K个长度为100的特征向量组成的向量流构成,每个向量流对应一个迭代单元;

步骤6,根据步骤3和步骤5中的2个子模型,构建特征聚合的谣言鉴别模型,具体是将2个子模型顶层全连接层移除,将子模型全连接层之前的一维中间特征向量进行横向拼接,得到新的一维中间特征向量,并将其重新接入全连接层;模型的输出层为一个神经元,输出值使用sigmoid函数作为激活函数,将预测值映射至0~1间的实数,表示分类置信度;模型在逆向传播时,采用二类交叉熵(Binary Cross Entropy,BCE)作为损失函数;

所述步骤2的具体实现方法是:记事件Ei的最早的消息发布时间为TimeFirsti,当前时效范围内最晚的消息发布时间为TimeLasti,将事件Ei的传播周期划分为N个等长时间间隔区间;对时间段按底数为10的对数划分,将各节点时间戳映射到对数空间,使得在传播周期中靠后的区间的时间间隔更长,如式(1)和式(2)所示:

其中,Interval(·)表示事件被划分为N个等长时间区间的长度,N默认值为100,可根据实际样本长度调整,TimeStamp(·)表示消息所在的时间区间索引;

将传播拓扑图中前4层节点新增数量的时序体量作为传播模式特征,即事件Ei的传播模式特征表示为:

SeriesTop(Ei)=(STi1,STi2,STi3,STi4) (3)

其中,SeriesTop(·)表示事件的传播模式特征,STL表示第L层上的时序体量,n为特征长度,默认为100。

2.根据权利要求1所述的一种基于特征聚合的社交网络谣言鉴别方法,其特征在于,所述步骤3特征提取层中,第1组卷积层中包含8个大小为2×3的卷积核,并且在特征矩阵的各行进行长度为1的零填充,各列不进行填充,因此在大小为4×M的特征矩阵上进行卷积操作后得到8个大小为3×M的特征图,经过第1层最大池化操作后转化为8个长度为行数为3,列数为M/2的特征图;第2组卷积层共有16个大小为3×3的卷积核,并且在特征矩阵的各行进行长度为1的零填充,各列不进行填充,由上层特征图生成16个长度为行数为1,列数为M/2的特征图,经过第2层最大池化操作后转化为16个长度为M/4的一维特征图.最终的特征图拼接后生成一长度为4M的一维中间特征向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811634045.9/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top