[发明专利]一种基于地域与情感特征的微博谣言集成识别方法及装置有效
申请号: | 201911197212.2 | 申请日: | 2019-11-29 |
公开(公告)号: | CN110990683B | 公开(公告)日: | 2022-08-23 |
发明(设计)人: | 吴渝;曾艳;李红波 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/9532 | 分类号: | G06F16/9532;G06F16/35;G06K9/62 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红;陈栋梁 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 地域 情感 特征 谣言 集成 识别 方法 装置 | ||
本发明请求保护一种基于地域与情感特征的微博谣言集成识别方法及装置,属于网络舆情领域,该装置包括以下模块:预处理装置:用于计算机对采集到的互联网微博数据进行清洗、打标;特征筛选模块:用于对已经完成打标操作的数据进行特征工程操作,在常用特征的基础上构造出地域相关性、情感一致性和用户可信度三个新特征,使用卡方检验对所有特征的有效性进行验证并进行有效性排序,通过特征工程进行特征筛选;谣言识别模型构造模块:用于采用Stacking方法作为集成学习的组合策略,构造谣言识别模型;判断模块:用于输入待检测数据,得到每条信息为谣言的可能性大小。
技术领域
本发明属于网络舆情领域,具体涉及一种基于地域与情感特征的微博谣言集成识别方法。
背景技术
互联网技术的飞速发展,为人与人之间的交流提供了更加快捷的方式。一方面,网络空间中的信息量不断增长;另一方面,信息的传播也随着各种网络平台的兴起而加速。在这个以网络为主要信息传播媒介的时代下,鱼龙混杂的信息充斥着网络空间,而谣言信息的传播可能带来的影响小到对个人名誉、隐私等的侵犯,大到对公共秩序造成混乱,引发群体性事件,导致国家的繁荣稳定受到危害。因此,对网络谣言的管控不仅关乎网民个人的利益,也与营造清朗的网络空间密不可分。
目前,国内外在网络谣言识别方面的研究工作,一部分聚焦于提取谣言与非谣言信息之间具有显著差异的特征集上,另一部分则侧重于分类模型的构建。基于模型构建的谣言识别方法不需要提取各种复杂的特征,但是需要大量数据支撑,而在数据量较少的情况下,着重于特征选择的研究方法更适用于谣言的识别。
通过结合传播学中的5W模式,构造出地域相关性、情感一致性和用户可信度三个新特征,并利用卡方检验可以检测到所构造特征的显著性,且相较于适用于小数据规模识别的简单统计特征,新构造的特征能更好的适应大规模数据;其次,采用集成学习的微博谣言识别方法根据“好而不同”的原则组合多个不同算法,利用不同算法所拥有的不同的分类速度、准确率和泛化能力,从而得到更好的识别结果,相较于目前单一的识别算法而言,能够大幅提升检测的精确度。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于地域与情感特征的微博谣言集成识别方法及装置。本发明的技术方案如下:
一种基于地域与情感特征的微博谣言集成识别方法,其包括以下步骤:
(A)计算机对采集到的互联网微博数据进行清洗、打标;
(B)对已经完成打标操作的数据进行特征工程操作,在常用特征的基础上构造出地域相关性、情感一致性和用户可信度三个新特征,使用卡方检验对所有特征的有效性进行验证并进行有效性排序,通过特征工程进行特征筛选;
(C)采用堆叠(Stacking)方法作为集成学习的组合策略,构造谣言识别模型;
(D)输入待检测数据,得到每条信息为谣言的可能性大小。
进一步的,所述用户可信度特征的具体构造步骤包括:
根据用户是否认证fverified、基本信息是否完整fInfoIntegrity以及用户影响力finfluence(ui)计算得到用户可信度,其计算公式如下:
fcredibility(ui)=fverified+finfluence+fInfoIntegrity;
fverified表示用户是否认证,取值为0或1;fInfoIntegrity表示用户的基本信息是否完整,基本信息包括用户昵称、用户注册地、个人描述、性别和头像信息,取值为0或1;finfluence表示用户影响力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911197212.2/2.html,转载请声明来源钻瓜专利网。