[发明专利]一种基于深度信念网络的单分类微博谣言检测模型有效
申请号: | 201811276813.8 | 申请日: | 2018-10-30 |
公开(公告)号: | CN109597944B | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 梁刚;许春;杨进;杨文太;陈俊仁;高玉君;王印玺;黄华雪 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06K9/62 |
代理公司: | 成都其高专利代理事务所(特殊普通合伙) 51244 | 代理人: | 贾波 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 信念 网络 分类 谣言 检测 模型 | ||
本发明公开了一种基于深度信念网络的单分类微博谣言检测模型,进行谣言的甄别,其特征在于:包括下述具体步骤:1)进行关键用户节点选择,在微博中选择有影响力和有代表性的用户;2)数据的爬取及数据预处理;3)采用深度信念网络将步骤2)预处理后的数据进行特征提取与降维;4)采用SVDD算法进行谣言甄别;该模型基于关键用户的数据收集模式,并将深度信念网络微博谣言检测之中,通过深度信念网络的非线性变换与层层递进实现了特征提取与降维,采用单分类问题中的支持向量数据描述用于谣言的识别。
技术领域
本发明涉及数据抓取、谣言甄别技术等领域,具体的说,是一种基于深度信念网络的单分类微博谣言检测模型。
背景技术
微博作为一种新兴的网络交流工具,其用户数在中国正以惊人的速度不断地增长。与传统媒体相比,微博具有无法比拟的信息传播速度,用户可以实时在网络中了解其关注的各种信息。同时,作为一种全新的自媒体——用户既是信息的消费者,也是信息的生产者,任何用户都可以借助微博发布信息,用户的言论自由在微博网络中得到极大的发挥,因此受到大量网民的追捧。根据新浪微博中心发布的《2017微博用户发展报告》:2017年,微博月活跃用户将达到3.76亿人,每天发送的信息量将超过200亿条。包括中央电视台、人民日报在内的传统媒体亦纷纷在微博中开设账号与网民实现信息的交互,微博已经成为人们获取信息的一个重要来源。
人们在充分享受微博带来的信息大餐的同时,也不得不面对其带来的一个严重问题:微博中充斥着大量的网络谣言。导致这一问题泛滥的根源恰恰是微博倍受青睐的特性——自媒体性。微博允许任意用户在网络中自由地发布信息,但却对其用户发布的信息缺乏有效的监管措施,不怀好意的用户利用这一管理上的不足在微博中大肆发布不实信息。由于信息在微博中的传播速度与广度的裂变传递以及经过多次传递产生级联效应,微博中的谣言问题带来的破坏性远远高于传统“口口相传”方式,“谣言倒逼真相”的案例在微博中时有发生。微博中的谣言问题对社会的和谐和稳定已经构成了极大的威胁,严重时甚至会影响到国家和地区的安全。因此,如何有效地识别出微博中流传的谣言信息已经刻不容缓。
为了及时准确地检测微博网络中传播的谣言,业界与学术界进行了努力与尝试,谣言识别的方法主要包含两类:第一类是以“微博辟谣”和“微博不实举报平台”为代表的人工谣言检测方法,这种方法的优点是谣言准确率高,缺点在于谣言检测耗费大量的人力成本,而且检测时间延迟大,人工检测方法没法有效地应对微博网络中每天数以亿计的数据量;第二种方法是机器学习的检测方法,这种方法将谣言检测问题看作有监督学习问题中的二元分类,通过特征提取,训练模型和样本分类来完成谣言的鉴别,这种方法相较于人工方法,较好的克服成本高、速度慢的缺陷。但是现有方法在进行谣言检测时具有如下局限性:
第一,是用于谣言检测器训练的数据集收集问题,因为新浪微博的安全保护,无法系统全面的收集微博网络中的数据。现有的方法采用的是所谓的“滚雪球”的方式收集,即在用户的好友圈中收集数据,这样获得数据具有较大同质性,无法有效的反映信息在微博传播的真实情况;
第二,现有的方法将谣言识别问题看作是监督学习中的二元分类问题,因此用于谣言检测器的数据集需要进行标注,现有的方法大多采用人工标注的方式,手工的方式耗费了大量的人力,同时标注的质量也依赖于标注者知识背景与经验;
第三,因为微博网络中的正常信息远远多于传播的谣言信息,因此构造出的数据集是一种严重不均衡的数据集,集合中正常微博的数量远远多于谣言微博,导致训练的结果偏向识别正常微博,而无法有效地识别谣言微博。
发明内容
本发明的目的在于提供一种基于深度信念网络的单分类微博谣言检测模型,该模型基于关键用户的数据收集模式,并将深度信念网络微博谣言检测之中,通过深度信念网络的非线性变换与层层递进实现了特征提取与降维,并采用单分类问题中的支持向量数据描述用于谣言的识别,克服了现有方法在面对不均衡数据时,训练结果偏向多数数据问题,也避免了由于训练模型需要人工标注数据,导致数据标注质量依赖于标注者的经验与知识背景问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811276813.8/2.html,转载请声明来源钻瓜专利网。