[发明专利]一种基于普遍认知与个体认知的虚假新闻检测系统及方法有效
申请号: | 202110045007.5 | 申请日: | 2021-01-13 |
公开(公告)号: | CN112966069B | 公开(公告)日: | 2023-05-19 |
发明(设计)人: | 饶元;吴连伟;孙菱;陈顺 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/211;G06F40/284;G06F40/30;G06N3/0442;G06N3/0455;G06N3/08 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 朱海临 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 普遍 认知 个体 虚假 新闻 检测 系统 方法 | ||
1.一种基于普遍认知与个体认知的虚假新闻检测方法,其特征在于,包括以下步骤:
步骤1,输入虚假新闻内容序列和若干相关文章序列;
步骤2,捕获一致性句子级序列并将其整合,生成自洽的全局证据序列;具体如下:
构建基于虚假新闻内容指导的编码器来捕获一致性句子级序列,整合这些句子级序列到层次注意力解码器中生成自洽的全局证据序列;
所述层次注意力解码器采用单向LSTM并行地计算基于句子级注意力权重β以及基于词级注意力权重α:
其中,βi表示第i个相关文章的句子级注意力权重;表示第i个相关文章的句子级表示;是第t个时间步上的解码层的隐藏状态;αi,t表示第i个相关文章与新闻序列的第t个词的词级注意力权重;表示相关文章序列的第i个隐藏层输出;W2与W3皆为可训练的参数;γi,t表示第i个相关文章与新闻序列的第t个词的词级与句子级综合权重;
计算在所有单词表V上生成的当前步骤的词的概率:
其中,WV与bV皆为可训练的参数;
生成长度为o的全局自洽的全局证据序列G={g1,g2,…,go},其中go是第o个生成词的表示;
步骤3,捕获相关文章的高层表示,并对其进行过滤,筛选出前k个具有差异性的相关文章,使得虚假新闻与每个筛选的相关文章进行互相交互,挖掘局部证据片段;具体如下:
采用句子级表示单元捕获相关文章的高层表示特征,采用选择机制单元筛选前k个具有高度差异性的代表性的相关文章,采用共同交互单元使虚假新闻内容与筛选的文章进行交互,挖掘局部证据片段;
所述句子级表示单元利用BiLSTM网络来编码每个相关文章并捕获该网络的最后隐藏状态作为句子级的表示;
所述选择机制单元学习并优化一个内部句子级注意力矩阵A矩阵中的条目(m,n)持有文章m与文章n之间的差异性,则:
其中,1≤m,n≤R且m≠n,um表示第m个相关文章的非线性变换,un表示第n个相关文章的非线性变换,为非线性激活函数,Wm与Wn为可训练的权重参数,表示第m个相关文章的编码,表示第n个相关文章的编码,bm与bn为可训练的偏差参数;⊙为点乘操作;
共同交互单元通过交互使得虚假新闻内容聚焦第i篇文章,第i篇文章通过交互更多的关注虚假新闻内容的出错部分;最终将这两种交互结果合成基于个体认知视角的关键证据序列:
对于前k篇文章,通过拼接操作整合所有的局部证据片段Ik:
I=[I1,I2,…,Ik] (16)
其中,Hc表示针对虚假新闻的隐藏状态;I表示所有局部证据片段的集合;
步骤4,惩罚生成的全局证据序列与局部证据片段之间的不一致性,实现可解释性虚假新闻的检测。
2.根据权利要求1所述的基于普遍认知与个体认知的虚假新闻检测方法,其特征在于,所述步骤1中,通过预训练模型BERT嵌入表示虚假新闻内容序列和第i个相关文章序列其中,p为虚假新闻内容序列的长度,l为第i个相关文章序列的长度,X={x1,x2,…,xl},每个词xi是由预训练模型BERT获得的一个d维向量,且
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110045007.5/1.html,转载请声明来源钻瓜专利网。