[发明专利]基于风格引导的双线性神经网络虚假新闻检测方法及系统有效
申请号: | 201910341056.6 | 申请日: | 2019-04-25 |
公开(公告)号: | CN110210016B | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 曹娟;王佳臣;谢添;李锦涛;郭俊波 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/30;G06N3/04;G06N20/00 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 风格 引导 双线 神经网络 虚假 新闻 检测 方法 系统 | ||
本发明提出一种基于风格引导的双线性神经网络虚假新闻检测方法及系统,包括:获取待网络虚假新闻检测的新闻文本,通过神经网络量化该新闻文本的语言风格特征,得到该新闻文本的风格向量,将该新闻文本输入文本特征提取器,得到该新闻文本的文本向量;将该风格向量和该文本向量输入双线性神经网络,该双线性神经网络包括双线性函数,用于建模该风格向量和该文本向量之间的相关性,以得到该新闻文本的的风格‑文本特征矩阵,使用该风格‑文本特征矩阵中最大分数向量组成引导向量,并将该引导向量输入至全连接层,判定该新闻文本的虚假新闻标签。本发明依据虚假新闻共性的语言风格来引导深度学习模型的学习过程,提升了模型的识别准确度与泛化性能。
技术领域
本发明涉及大数据挖掘中新闻检测领域,并特别涉及一种基于风格引导的双线性神经网络虚假新闻检测方法及系统。
背景技术
社交媒体的快速发展已经改变了人们的日常生活,用户可以方便自由的从社交媒体上发布与获取信息。然而,社交媒体的蓬勃发展也为虚假新闻的滋生与传播提供了沃土。据统计,仅在2016年美国总统大选期间就有529件有关总统候选人的虚假新闻产生,被传播高达三千七百万次。虚假新闻已经严重污染了网络社交环境,影响了用户的日常生活,因此亟需对网络社交媒体上的虚假新闻进行自动化检测。
在现有研究中,研究者通常关注在新闻内容及相应的社交关系上。Martin等人利用诸如引用词个数、新闻中URL个数等领域相关信息来进行虚假新闻检测,Jin等人通过检测发现新闻相关评论下的不同观点间是否有冲突来判定新闻的真实性。Castillo等人从新闻内容、用户主页和新闻传播网络等方面提取了大量的手工特征来刻画虚假新闻,取得了较为不错的结果。与传统手工刻画虚假新闻的特征不同,基于深度学习的方法无需再进行复杂的特征工程。Ma等人将虚假新闻的社交属性看作变长的时间序列,并使用循环神经网络(RNN)来处理,其识别准确度较传统方法有了较大提升。Guo等人认为虚假新闻事件、相关新闻及其评论之间存在着层次关系,并提出了层次注意力模型来处理这种层次关系,实验表明,该方法在识别虚假新闻上具有较为突出的能力。
发明人在进行虚假新闻检测研究时发现,现有方法往往过于依赖于新闻本身,而缺乏对虚假新闻这一类新闻共性的分析,导致现有方法在新产生的新闻上的识别准确度难以达到预期水平。
发明内容
针对以上问题,本发明提出了一种利用风格引导的深度学习虚假新闻检测算法。该方法通过显式的使用虚假新闻共有的风格特征来对深度学习模型的学习过程进行引导,保证模型可以获取到虚假新闻整体的共性特征,提升了模型在新产生新闻上的检测效果。其中“显式的”的反义对应于“隐式的”,“隐式的”是指模型当中包含这些信息,但是这些信息在外界并不能观察到;“显式的”的含义是被特别的使用、突出该信息来对模型进行引导。
针对现有技术的不足,本发明提出一种基于风格引导的双线性神经网络虚假新闻检测方法,其中包括:
步骤1、获取待网络虚假新闻检测的新闻文本,通过神经网络量化该新闻文本的语言风格特征,得到该新闻文本的风格向量,将该新闻文本输入文本特征提取器,得到该新闻文本的文本向量;
步骤2、将该风格向量和该文本向量输入双线性神经网络,该双线性神经网络包括双线性函数,用于建模该风格向量和该文本向量之间的相关性,以得到该新闻文本的的风格-文本特征矩阵,使用该风格-文本特征矩阵中最大分数向量组成引导向量,并将该引导向量输入至全连接层,判定该新闻文本的虚假新闻标签。
所述的基于风格引导的双线性神经网络虚假新闻检测方法,其中该步骤1包括:
步骤11、将该新闻文本转化为词汇向量拼接而成的向量矩阵x1:n=x1⊕x2⊕xi…⊕xn,其中⊕表示拼接操作,xi表示该新闻文本中第i个词所对应的词汇向量,i为大于2且小于n的正整数,x1:n表示长度为n的该向量矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910341056.6/2.html,转载请声明来源钻瓜专利网。