[发明专利]一种基于搜索引擎返回结果的谣言检测方法及电子装置有效

专利信息
申请号: 202010929737.7 申请日: 2020-09-07
公开(公告)号: CN112256861B 公开(公告)日: 2023-09-26
发明(设计)人: 林政;付鹏;刘欢;王伟平;孟丹 申请(专利权)人: 中国科学院信息工程研究所
主分类号: G06F16/35 分类号: G06F16/35;G06F40/284;G06F16/953;G06N3/045;G06N3/0442;G06N3/08
代理公司: 北京君尚知识产权代理有限公司 11200 代理人: 余功勋
地址: 100093 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 搜索引擎 返回 结果 谣言 检测 方法 电子 装置
【说明书】:

发明提供一种基于搜索引擎返回结果的谣言检测方法及电子装置,包括:依据一原文的内容,检索得到若干文档及相应发布来源,并从每一所述文档中选取若干单词组成一证据文档;拼接原文、原文发布人与每一证据文档及相应发布来源,得到一文本集合,并将所述文本集合输入到预训练语言模型,得到原文和证据文档之间的相关性特征;依据相关性特征对原文进行分类,判断原文是否为谣言。本发明未使用特征工程和领域知识,从外部证据文章中捕获对谣言检测有帮助的词句,训练数据获得难度极低,准确率优于现有方法。

技术领域

本发明属于计算机领域,尤其涉及一种基于搜索引擎返回结果的谣言检测方法及电子装置。

背景技术

近年来,以预训练语言模型作为基础针对下游任务进行微调然后处理的方式取得了良好的效果。Delvin等人提出了BERT预训练语言模型([66]Devlin J,Chang M W,Lee K,et al.BERT:Pre-training of Deep Bidirectional Transformers for LanguageUnderstanding[C]//Proceedings of the 2019Conference of the North AmericanChapter of the Association for Computational Linguistics:Human LanguageTechnologies,Volume 1(Long and Short Papers).2019:4171-4186.)。BERT通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示,在以后特定的NLP任务中,可以直接使用BERT的特征表示作为该任务的词嵌入特征。BERT使用了Transformer作为算法的主要框架,Transformer能更彻底的捕捉语句中的双向关系;使用更强大的机器训练更大规模的数据,使BERT的结果达到了全新的高度,其在NLP领域的11个方向大幅刷新了精度。所以BERT提供的是一个供其它任务迁移学习的模型,该模型可以根据任务微调或者固定之后作为特征提取器,可以高效地将其应用到自然语言处理任务中。

谣言原文能够提供的线索有限,而搜索引擎和知识库恰好可以为谣言检测系统提供丰富的外部知识,因此利用搜索引擎或构建知识库在辅助机器进行谣言检测方面具有重要意义。通过提取文档的基本元素并从网站上搜索它们。Popat等人通过评估语言风格(主观词汇的使用情况),证据文档发布者的可信度以及证据文档的情感立场,利用有监督的分类器进行分类。Popat等人(Popat K,Mukherjee S,Yates A,et al.DeClarE:DebunkingFake News and False Claims using Evidence-Aware Deep Learning[C]//Proceedingsof the 2018Conference on Empirical Methods in Natural LanguageProcessing.2018:22-32)搜索与谣言相关的网络文章,通过词嵌入和双向LSTM来得到文本的语言特征,同时使用注意力机制。将重点放在文章的相关部分上。然后,模型通过全连接层得到预测结果。

采用端到端的模型来进行针对网络搜索证据的可信性评估,无需任何人工干预。现有方法大多基于带有注意力机制的循环神经网络,缺少大规模语义知识。此外,因为BERT是基于大规模语料训练的语言模型,涵盖了大多数语义信息。但是,因为BERT缺少针对谣言特性的信息,直接将BERT用于谣言检测不能得到很好的效果。仍然需要进一步改进。

发明内容

本发明的目的在于提出一种基于搜索引擎返回结果的谣言检测方法及电子装置,模拟人类在发现可疑信息时采取的方法,自动利用搜索引擎返回结果,可以汇总证据上下文,结合这些文章的语言特征及其来源的可信度,还可以利用注意力机制捕捉到对谣言检测有用的信息,从而提高谣言检测准确率。

本发明的技术方案为:

一种基于搜索引擎返回结果的谣言检测方法,其步骤包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010929737.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top