[发明专利]一种基于深度神经网络的社交网络粤语谣言检测方法有效
申请号: | 202011233016.9 | 申请日: | 2020-11-06 |
公开(公告)号: | CN112256945B | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 王海舟;陈欣雨;柯亮;苏涵键;卢志鹏 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06F16/9536;G06F40/166;G06F40/216;G06F40/295;G06F40/30;G06N3/04;G06N3/08;G06Q50/00;G06K9/62 |
代理公司: | 北京正华智诚专利代理事务所(普通合伙) 11870 | 代理人: | 何凡 |
地址: | 610064 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 神经网络 社交 网络 粤语 谣言 检测 方法 | ||
1.一种基于深度神经网络的社交网络粤语谣言检测方法,其特征在于,包括以下步骤:
S1、采用基于Scrapy框架的Web爬虫针对性地获取目标社交网络平台上的粤语微博文数据,并对其进行人工标注,构建包括谣言数据和非谣言数据的粤语谣言数据集;
S2、对粤语谣言数据集中的谣言数据和非谣言数据进行分析,提取得到统计特征;
S3、利用BERT、Bi-LSTM和注意力机制构建基于多特征融合的BLA深度学习模型,并将预处理后的微博文文本和提取到的统计特征输入BLA深度学习模型,输出得到目标社交网络平台上的粤语谣言检测结果;
所述步骤S2中提取得到的统计特征包括用户特征、内容特征、传播特征和评论特征;
所述步骤S3中构建的基于多特征融合的BLA深度学习模型包括依次连接的输入层、特征提取层、特征拼接层、注意力层和输出层;
所述输入层输入预处理后的微博文文本和提取到的统计特征,单条所述预处理后的微博文文本表示为I={I1,I2,...,In},n为设置的最大博文长度;
所述特征提取层包括语义特征提取模块和统计特征提取模块;
所述语义特征提取模块采用BERT模型作为文本词嵌入提取器,将单条预处理后的微博文文本I={I1,I2,...,In}作为输入进行词嵌入提取,得到词嵌入语义特征W={W1,W2,...,Wn},所述词嵌入语义特征W中每个元素Wi均为768维的向量,且词嵌入语义特征W表示为:
W=BERT(I')
I'=Tokenize(I)
其中BERT(·)表示BERT模型,Tokenize(·)表示BERT模型中生成Tokenizer的函数,I'表示微博文文本I经过Tokenize(·)函数生成的Tokenizer;
所述语义特征提取模块将提取得到的词嵌入语义特征W={W1,W2,...,Wn}输入Bi-LSTM网络中,通过其记忆功能进一步学习微博文的上下文特征,输出得到一维的语义特征向量H={h1,h2,...,hk},k为Bi-LSTM网络中隐含节点的个数,语义特征向量H中的元素hi的计算公式为:
其中LSTM(·)表示LSTM网络函数,表示LSTM网络第i-1个状态产生的后向隐含向量,表示LSTM网络第i+1个状态产生的前向隐含向量,和分别表示LSTM网络第i个状态产生的后向隐含向量和前向隐含向量,⊕表示向量拼接;
所述统计特征提取模块将提取到的统计特征进行归一化处理后,经过BP神经网络的全连接层映射成和语义特征向量具有相同维度的统计特征向量S:
S=f(ws·fs'+bs)
fs'=NORMALIZE(fs)
fs=fu⊕fc⊕fp⊕fr
其中fu表示用户特征,fc表示内容特征,fp表示传播特征,fr表示评论特征,fs表示统计特征,NORMALIZE(·)表示归一化函数,fs'表示归一化后的统计特征,f(·)表示激活函数,ws表示训练好的检测模型中的权重矩阵,bs表示训练好的检测模型中的偏置项;
所述特征拼接层通过Keras拼接技术将语义特征向量H和统计特征向量S拼接得到拼接向量F={F1,F2,...,F300}:
F=S⊕H
所述注意力层使用注意力机制为不同重要性的特征Fi赋予不同的权重,其表示为:
ui=tanh(ww·Fi+bw)
其中FE表示最终判断博文是否为谣言的向量,αi为拼接向量F中第i个特征Fi的权重,其由Softmax函数实现,ui为特征Fi的中间隐藏层向量,uw为一个随机初始化的向量,ww和bw分别表示Fi的中间隐藏层的权重矩阵和偏置项;
所述输出层通过Sigmoid函数对最终判断博文是否为谣言的向量FE进行处理,得到目标社交网络平台上的粤语谣言检测结果pd:
pd=sigmoid(FE)
其中sigmoid(·)表示Sigmoid函数,pd=0表示检测结果为非谣言,pd=1表示检测结果为谣言。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011233016.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于妇科肿瘤介入治疗装置
- 下一篇:一种用于茶叶中膳食纤维提取的醇沉装置