[发明专利]一种基于知识蒸馏的少样本虚假新闻检测方法有效

专利信息
申请号: 202011220037.7 申请日: 2020-11-05
公开(公告)号: CN112183670B 公开(公告)日: 2022-08-09
发明(设计)人: 陈晨;袁婧;袁晓洁 申请(专利权)人: 南开大学
主分类号: G06K9/62 分类号: G06K9/62;G06F16/35;G06N3/04;G06N3/08;G06N20/20
代理公司: 天津耀达律师事务所 12223 代理人: 张耀
地址: 300071*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 知识 蒸馏 样本 虚假 新闻 检测 方法
【说明书】:

发明开了一种基于知识蒸馏的少样本虚假新闻检测方法,属于人工智能技术领域,命名为FSKD(Detecting Fake News with Few‑Shot Knowledge Distillation)。本方法采用知识蒸馏的思想,以Teacher‑Student(教师‑学生)模型为框架,使用BERT作为Teacher(教师)模型,使用少量的有标签数据进行微调来为无标签的数据给定soft labels(软标签),从而使得模型可以同时使用有标签的数据和无标签的数据进行训练,解决了现有的虚假新闻检测手段需要依赖大量的有标签数据的问题,同时此方法使用了一定的优化算法来避免过拟合问题。实验结果表明,本方法优于目前已有的少样本虚假新闻检测方法的效果。

技术领域

本发明属于人工智能技术领域,具体涉及互联网的新闻数据,对网络中出现的假新闻,提出了一种基于知识蒸馏的少样本虚假新闻检测方法。

背景技术

互联网的深度普及加速了“信息时代”的到来,网络中的每个人都能以极低甚至“零”成本的方式创造信息,同时每个人也都可以成为信息传播路径上的一个节点。这种获取、创造和传播信息的便捷,给社会的进步和人类的发展带来了巨大的福祉。然而凡事终有两面,互联网也开始为人类社会带来很大挑战——网络中的信息鱼龙混杂,充斥着大量的虚假信息。

2018年顶级国际期刊《科学》指出,在2016年美国总统大选期间样本选民平均每人每天接触四篇假新闻;要传播至1500个选民,假新闻的传播速度是真新闻的6-20倍;国际咨询公司Gartner预测,到2020年,互联网虚假新闻将面临泛滥之势。因此解决互联网中的虚假新闻检测问题是非常重要且有意义的研究。

近些年来,随着大数据和人工智能技术的发展,基于深度学习、机器学习和自然语言处理等技术的自动虚假新闻检测方法陆续被提出。但是现有的虚假新闻检测手段依赖于大量的有标签的数据集,然而新闻标注是一项耗时耗力且无法保证准确性的工作。假新闻为了迷惑大众往往题材丰富且语言风格多种多样,除此之外,假新闻大多紧跟时事,利用现有知识库可能无法对这些事件核实。对于很多互联网用户,由于知识水平等参差不齐,往往不具备足够分辨信息真实性的能力。

相比较而言,可以采用爬虫等技术手段来轻松的获取大量的无标签数据集。为了使得无标签的数据可以一起加入训练,本方法采用知识蒸馏的思想,使用BERT作为Teacher(教师)模型,使用少量的有标签数据集进行微调来为无标签的数据集给定soft labels(软标签)。通过此种方式可以更加充分地使用无标签数据集的信息,从而帮助模型对新样例的真/假进行更加合理、准确的判断。

综上所述,使用少样本的数据集合同时结合知识蒸馏的思想进行虚假新闻检测是一个创新的研究思路,具有重要的研究意义和研究价值。

发明内容

本发明的目的是解决现有的虚假新闻检测手段需要依赖大量的有标签数据集的问题,提出了一种结合知识蒸馏的思想仅需使用少量的有标签数据进行虚假新闻检测的方法。本发明以Teacher-Student(教师-学生)模型为框架,创新地提出了一种同时使用有标签数据和无标签数据进行训练的方法,提高了少样本虚假新闻检测的效果。

本发明的技术方案

一种基于知识蒸馏的少样本虚假新闻检测方法,该方法的具体步骤如下:

第1、数据的预处理

在数据的预处理阶段,收集中英文数据集的新闻样本,其包括新闻的源文本以及对应的标签信息(Fake/True,真/假)。并对收集到的数据集进行一定的处理,以便于后续模型使用。

第1.1、收集数据

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011220037.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top