[发明专利]一种基于知识蒸馏的少样本虚假新闻检测方法有效

专利信息
申请号: 202011220037.7 申请日: 2020-11-05
公开(公告)号: CN112183670B 公开(公告)日: 2022-08-09
发明(设计)人: 陈晨;袁婧;袁晓洁 申请(专利权)人: 南开大学
主分类号: G06K9/62 分类号: G06K9/62;G06F16/35;G06N3/04;G06N3/08;G06N20/20
代理公司: 天津耀达律师事务所 12223 代理人: 张耀
地址: 300071*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 知识 蒸馏 样本 虚假 新闻 检测 方法
【权利要求书】:

1.一种基于知识蒸馏的少样本虚假新闻检测方法,具体步骤如下:

第1、数据的预处理

在数据的预处理阶段,收集中英文数据集的新闻样本,其包括新闻的源文本以及对应的标签信息:真/假,并对收集到的数据集进行一定的处理,以便于后续模型使用;

第2、使用BERT预训练

使用第1步处理得到的数据,使用BERT进行训练,通过少量的有标签的训练数据进行微调,为无标签的数据集合给定对应的软标签,即属于每一类的概率分布;

第3、使用FSKD训练

使用第1步处理后的训练集和测试集,以及第2步训练得到的软标签集合使用本文提出的模型框架FSKD进行训练;

第4、输出测试结果

使用第3步训练好的模型,为第1步划分的测试集合给定真/假标签,并输出模型的准确率值以及F1分数;

第3步使用FSKD训练的具体方法是:

知识蒸馏是指:

知识蒸馏采用Teacher-Student模型架构,其中Teacher模型是一个相对复杂的模型,模型的参数较多,结构比较复杂;Student模型较Teacher模型而言,参数较少且结构简单,知识蒸馏的主要思想是通过训练使得Teacher模型和Student模型输出的softmax分布充分接近;

广义的softmax函数是指:

其中T是温度,这是从统计力学中的玻尔兹曼分布中借用的概念,当温度T趋于0时,softmax输出将收敛为一个one-hot向量;当温度T趋于无穷时,softmax的输出则相对平滑,当T=1时,其即softmax函数;

硬标签是指:

新闻的标签信息;模型预测的新闻的标签信息,对于本文来说是真/假;

软标签是指:

模型预测输出的新闻属于每一类的概率分布,其值由广义的softmax函数给出,软标签较硬标签可以携带更多的信息;

KL散度是指:

相对熵,又被称为Kullback-Leibler散度或信息散度,是两个概率分布间差异的非对称性度量,在信息理论中,相对熵等价于两个概率分布的信息熵的差值;

设P(x),Q(x)是随机变量X上的两个概率分布,则在离散和连续随机变量的情形下,相对熵的定义分别为:

根据定义本方法解决的是少样本学习情景下的2-Way K-shot问题,使用第1步处理得到的训练数据,根据不同的K值,抽取相应数量的有标签训练样本,以及第2步得到软标签训练样本,使用FSKD模型进行训练,得到最优的参数组合θ*,其损失函数由下式给出:

其中为有标签训练集,为第2步得到的软标签训练集,N远大于K,θ为模型的参数,y为新闻的硬标签,其中y∈{0,1},y=1为假新闻,y=0为真新闻,λ为权重参数,P'BERT(y|x)由第2步得到,P'(y|x;θ)由广义的softmax函数给出;

第4步使用FSKD输出测试结果的具体方法是:

将第1步处理后的测试集输入第3步得到的最优的FSKD模型中,输出本文提出的模型在该测试集上的Accuracy值以及F1分数。

2.根据权利要求1所述的基于知识蒸馏的少样本虚假新闻检测方法,其特征在于,第1步数据预处理的具体方法是:

第1.1、收集数据

收集中英文虚假新闻检测数据集的新闻样本,其包括新闻的源文本和对应的标签信息,中文采用FNDC数据集,英文采用GossipCop数据集,该数据集来源于FakeNewsNet,其收集自事实检测网站GossipCop.com;

第1.2、数据处理

在完成数据集的收集工作之后,对数据集进行处理以得到后续训练需要用到的文件格式,对于中文数据集,还需进行切词以及去停用词等处理,之后将其保存为tfrecord文件格式供后续模型使用;

第1.3、划分数据集合

将1.2步得到的数据集合,按照一定的比例将其划分为:有标签训练集、无标签集、测试集;其中无标签集的集合作为第2步使用BERT预训练的测试集,同时作为第3步使用FSKD训练的软标签训练集;测试集为第3步使用FSKD训练的测试集。

3.根据权利要求1所述的基于知识蒸馏的少样本虚假新闻检测方法,其特征在于,第2步使用BERT预训练的具体方法是:

BERT模型是指:

BERT的全称是Bidirectional Encoder Representations from Transformers,是谷歌提出的基于双向Transformer构建的一个预训练的语言表征模型;BERT模型来源于论文BERT:Pre-training of Deep Bidirectional Transformers for LanguageUnderstanding;它采用新的掩码语言模型,来生成深度的双向语言表征;

少样本学习是指:

一种仅需要少量的有标签样例进行训练的学习方式;

N-Way K-Shot是指:

N-WayK-Shot分类问题就是指用少量样本构建分类任务,N-way指类别数为N,K-Shot指在训练时,每类使用的有标签的样例数为K;

softmax函数是指:

其中zx是神经网络中softmax层之前输出的logits值,θ为模型的参数;

根据定义本方法解决的是少样本学习情景下的2-Way K-shot问题,使用第1步处理得到的训练数据,根据不同的K值,抽取相应数量的训练样本微调BERT模型,将无标签的数据集作为测试集合,由训练好的BERT模型为其给定属于每一类的概率分布,得到的软标签集供第3步使用,BERT的输出为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011220037.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top