[发明专利]基于事件与传播结构的谣言检测方法有效
申请号: | 202110903231.3 | 申请日: | 2021-08-06 |
公开(公告)号: | CN113343126B | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 梁刚;杨进;高玉君;许春;蒋方婷;奚金霞;李劭 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F40/30;G06N3/04 |
代理公司: | 成都其高专利代理事务所(特殊普通合伙) 51244 | 代理人: | 廖曾;贺立中 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 事件 传播 结构 谣言 检测 方法 | ||
1.基于事件与传播结构的谣言检测方法,其特征在于:包括下述步骤:
步骤1、从获取的公开数据集E所包含的事件中提取源帖信息、转发关系以及其他特征,其中,其他特征包括用户信息、粉丝数、点赞数,k表示的是事件的序数,ek表示第k个事件,nk为第k个事件ek中的单个帖子,rk为源帖,每个代表第j个相关的转发帖或响应帖,且j=1…k;
步骤2、使用基于情感极性的BERT对源帖信息进行文本数据增强,进而获得源帖的增强文本特征向量D,包括以下具体步骤:
步骤2.1、将源帖信息中的文本数据进行情感极性标注,获得标记数据集S,且S={{p1,y1},{p2,y2},...,{pN,yN}},其中,N为被标记的数据个数,pN为第N个被标记的数据,yN为第N个被标记数据的情感极性标签;
步骤2.2、在标记数据集S上对预训练的BERT进行微调,直至收敛;即将BERT中能对文本的语义相似性进行分类的段表征{EA,EB}改为与标注好的情感极性有关联的情感极性表征Eemotion,从而根据标记数据集上的情感极性标签进行学习;其中,EA表示改词属于句向量A,EB表示词属于句向量B;A,B分别为句向量,且当输入文本为非单一的情感极性时,需调整向量的大小以兼容标签大小;
步骤2.3、对于每次迭代i=1,2,...N,从标记数据集S中抽取句子pi,随机屏蔽k个词,通过基于情感极性的双向编码器表示技术模型根据语境和情感极性预测被屏蔽词的原始词汇索引I,且I=P(·|y,S\{pi}),从而获得与句子情感极性标签相匹配的各种词Term={trem1,trem2,...,tremk},并获得文本特征向量Word={word1,word2,...,wordn};其中,wordi为文本中第i个特征词,S\{pi}表示除去被屏蔽词之外的上下文,y表示除去被屏蔽词之外的上下文的标签,P表示基于情感标记和去除屏蔽词后的句子得到预测屏蔽词的条件概率,tremk表示是第k个情感极性词;
步骤2.4、形成源帖的增强文本特征向量D;
步骤3、将源贴的增强文本特征向量D加入到传播关系的根节点中,与传播关系T结合,形成树型传播结构Gk;
步骤4、将树型传播结构Gk解析成正向树型传播结构和反向树型传播结构并将正向和反向两种树型传播结构分别输入到正向的图卷积神经网络模型以及反向的图卷积神经网络模型中,获得传播特性HF和扩散特性HR,正向的图卷积神经网络模型和反向的图卷积神经网络模型共同构成基于事件与传播结构的双向图卷积神经网络模型;
步骤5、对正向树型传播结构以及反向树型传播结构中包含根节点以及转发节点在内的所有节点进行节点增强操作;
步骤6、使用全连接将基于事件与传播结构的双向图卷积神经网络层与softmax分类函数进行连接,根据softmax分类函数的输出结果用于判断待检测的事件是否为谣言,所述softmax分类函数为:其中Vi表示分类的类别,i表示类别索引,C表示分类的种类,Si表示输出最大对应的类别。
2.根据权利要求1所述的基于事件与传播结构的谣言检测方法,其特征在于:所述BERT采用双向语言模型从正反两个方向对生成新语句的概率进行建模,再由独立训练的正向语言模型的浅层和反向语言模型的浅层连接而成,形成BERT模型;其中,正向语言模型预测序列的概率表示为:pi表示选择的句子,反向语言模型预测序列的概率表示为:pi表示选择的句子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110903231.3/1.html,转载请声明来源钻瓜专利网。