[发明专利]一种基于BLSTM的微博谣言检测方法在审
申请号: | 201711436582.8 | 申请日: | 2017-12-26 |
公开(公告)号: | CN108280057A | 公开(公告)日: | 2018-07-13 |
发明(设计)人: | 林达真;林凯;马奔;曹冬林;陈香焰;刘秉钧 | 申请(专利权)人: | 厦门大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/08 |
代理公司: | 厦门南强之路专利事务所(普通合伙) 35200 | 代理人: | 马应森 |
地址: | 361005 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本数据 检测 微博 预处理 矩阵 机器学习领域 微博网络数据 处理数据 分类检测 检测结果 媒体提供 训练建模 训练模型 复杂度 准确率 构建 样本 学习 | ||
一种基于BLSTM的微博谣言检测方法,涉及机器学习领域和深度学习领域。收集微博网络数据作为样本数据;对样本数据进行预处理;用word2vec方法构建样本句矩阵;对待检测的微博数据进行预处理;根据对层次的训练模型,对待检测句矩阵进行分类检测,得到检测结果。采用BLSTM深度学习方法,对样本数据进行多层次训练建模,有效提高当前其他方法对谣言检测的准确率,降低处理数据过程的复杂度,同时能为社交媒体提供可行性方法。
技术领域
本发明涉及机器学习领域和深度学习领域,尤其是涉及一种基于BLSTM的微博谣言检测方法。
背景技术
以新浪微博为代表的新兴社交媒体具有开放性、低门槛、交互性等特点,为网民提供了一个自由表达意见与交流信息的平台。在当今自媒体盛行、网络红人影响力越来越大的情况下,他们的微博内容时刻影响着大众。所以,在微博平台中,经过某个或几个微博知名用户的转发,就会形成强大的舆论效应。这在权威媒体占主导的当代是不可想象的。这些因素,导致微博很容易成为谣言扩散的平台。
针对社交网络上谣言的检测,主要以人工检验和关键词检索为主。对新浪微博来说,目前谣言处理主要采取用户举报、人工判断方式,这导致了处理效率低和时间滞后等问题。
现有方法涉及用one-hot方法表示词向量,但若将一个文件中的句子都压平成向量,则会造成维度爆炸,所以这种方法在处理大量的文本数据时会遇到极大挑战。Google提出 Word2Vector方法,用高维度的向量从多个方向表征一个词,从而采用二进制方式提高数字的表示范围([1]毛二松,陈刚,刘欣,等.基于深层特征和集成分类器的微博谣言检测研究[J]. 计算机应用研究,2016,33(11):3369-3373)。
深度学习是近年来的研究热点,它通常包含多个隐层,从而能够从更加抽象的角度表示特征。深度学习在语音识别、图像处理等领域都有着广泛的应用。递归神经网络(RNN)目前应用较多,长短期记忆模型(LSTM)是它的一种典型变形,而双向LSTM(BLSTM)相当于两层LSTM连接,应用于文本分析可以理解更多的上下文语义,对微博谣言有更好的处理能力([2]梁军,柴玉梅,原慧斌,等.基于极性转移和LSTM递归网络的情感分析[J].中文信息学报,2015,29(5):152-159)。因此,需要提供一种基于深度学习的微博谣言检测方法,更具体地,需要提供一种基于BLSTM的微博谣言检测方法。
发明内容
本发明的目的在于提供通过深度学习技术进行多层次训练,可提高对社交网络谣言检测准确率的一种基于BLSTM的微博谣言检测方法。
本发明包括以下步骤:
1)收集微博网络数据作为样本数据;
2)对样本数据进行预处理;
在步骤2)中,所述预处理可包括分词、去停用词、文本向量化等。
3)用word2vec方法构建样本句矩阵;
在步骤3)中,所述用word2vec方法构建样本句矩阵的具体方法可为:采用BLSTM模型对样本句矩阵进行训练,构建训练模型;BLSTM每一个训练序列向前和向后分别是两个LSTM神经网络,所述两个LSTM神经网络连接一个输出层,提供给输出层输入序列中每一个点的完整的过去和未来的上下文信息,展示的是一个沿着时间展开的双向循环神经网络,6个独特的权值在每一个时步被重复的利用,6个权值分别对应:输入到向前和向后隐含层(w1, w3),隐含层到隐含层自己(w2,w5),向前和向后隐含层到输出层(w4,w6)。
4)对待检测的微博数据进行预处理;
5)根据对层次的训练模型,对待检测句矩阵进行分类检测,得到检测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711436582.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种Excel文件解析方法
- 下一篇:基于强化学习的关系抽取方法和装置