[发明专利]一种基于深度神经网络的社交网络粤语谣言检测方法有效
申请号: | 202011233016.9 | 申请日: | 2020-11-06 |
公开(公告)号: | CN112256945B | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 王海舟;陈欣雨;柯亮;苏涵键;卢志鹏 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06F16/9536;G06F40/166;G06F40/216;G06F40/295;G06F40/30;G06N3/04;G06N3/08;G06Q50/00;G06K9/62 |
代理公司: | 北京正华智诚专利代理事务所(普通合伙) 11870 | 代理人: | 何凡 |
地址: | 610064 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 神经网络 社交 网络 粤语 谣言 检测 方法 | ||
本发明公开了一种基于深度神经网络的社交网络粤语谣言检测方法,首先有针对性地采集了目标社交网络平台上的粤语微博文数据,并严格地进行了人工标注,从而构建了一个较为完善的粤语谣言数据集;接着针对微博文提取了27个统计特征;最后,本发明提出了一个粤语谣言检测模型BLA,该模型结合了BERT、Bi‑LSTM和注意力机制,并融合提取的统计特征实现了对粤语谣言的分类检测。实验评估结果表明本发明在粤语谣言检测问题上的表现优于其他的检测方法,同时本发明为将来的粤语谣言检测提供了方法和思路。
技术领域
本发明属于网络安全技术领域,具体涉及一种基于深度神经网络的社交网络粤语谣言检测方法的设计。
背景技术
信息技术和移动互联网的发展催生了社交网络行业的繁荣。社交网络的出现使得大众成为了独立的信息源,由信息的消费者变为了信息的生产者。人们热衷于在网上发表言论,对现实生活中发生的热点事件作出评论,表达自己的立场和观点。
目前已经有很多面向社交网络平台的谣言检测工作,然而很少有人研究社交网络中的粤语谣言检测问题,并且针对粤语的自然语言处理技术也不够成熟,这也为粤语谣言的检测带来了挑战。
发明内容
本发明的目的是为了解决现有技术中缺少对社交网络中粤语谣言检测的研究的问题,提出了一种基于深度神经网络的社交网络粤语谣言检测方法。
本发明的技术方案为:一种基于深度神经网络的社交网络粤语谣言检测方法,包括以下步骤:
S1、采用基于Scrapy框架的Web爬虫针对性地获取目标社交网络平台上的粤语微博文数据,并对其进行人工标注,构建包括谣言数据和非谣言数据的粤语谣言数据集。
S2、对粤语谣言数据集中的谣言数据和非谣言数据进行分析,提取得到统计特征。
S3、利用BERT、Bi-LSTM和注意力机制构建基于多特征融合的BLA深度学习模型,并将预处理后的微博文文本和提取到的统计特征输入BLA深度学习模型,输出得到目标社交网络平台上的粤语谣言检测结果。
进一步地,步骤S1中的基于Scrapy框架的Web爬虫包括代理池、请求器、处理器和数据库;代理池用于实现高并行的数据爬取;请求器的任务包括对Token的请求和对数据的请求,对Token的请求用于获取请求数据所需的对应数量的凭据,对数据的请求用于根据要求使用Token获取数据;处理器用于将爬取到的原始数据进行预处理和特征提取,并将处理后的数据存入数据库中;数据库包括Token数据库和社交网络数据库,Token数据库用于根据爬虫运行的效率需求存储对应数量的Token,社交网络数据库用于存储经过处理器处理的社交网络数据。
进一步地,步骤S1中通过以下两种方式针对性地获取目标社交网络平台上的粤语微博文数据:
(1)以两个官方媒体的报导内容为事实基础,构建出事件的关键词,并在目标社交网络平台上进行搜索。
(2)获取曾经发布过粤语谣言的用户的历史博文作为数据标注的对象。
进一步地,步骤S2中提取得到的统计特征包括用户特征、内容特征、传播特征和评论特征。
进一步地,用户特征包括粉丝数-关注数比例βFFR、每日发博数βTPD、列表数βLC、用户点赞数βULC、发博数βTC、媒体文件数βMC、是否被禁用特征βNFS、综合特征βCL、账户注册时长βAG、是否被认证特征βV、是否包含个人描述特征βHD、是否包含位置特征βHL和是否是默认主页特征βDP。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011233016.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于妇科肿瘤介入治疗装置
- 下一篇:一种用于茶叶中膳食纤维提取的醇沉装置