[发明专利]一种社交平台的早期争议性消息检测方法及系统有效
申请号: | 202010382894.0 | 申请日: | 2020-05-08 |
公开(公告)号: | CN111694955B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 曹娟;卢名彦;谢添;刘浩远;郭俊波 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06Q50/00 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 社交 平台 早期 争议 消息 检测 方法 系统 | ||
本发明提出一种社交平台的早期争议性消息检测方法及系统,包括:收集社交平台中关于预设话题下的所有消息,并根据每一条消息的评论信息为每一条消息的争议性进行标记,提取标记后消息的多维度争议性特征作为训练数据,以该训练数据训练梯度提升树模型,得到争议性消息检测模型;从该社交平台获取待发表的消息作为待检测消息,并将该待检测消息的多维度争议性特征输入至该争议性消息检测模型,得到该待检测消息的争议性消息检测结果。本发明可得到社交平台中待审核发表消息的争议性。
技术领域
本发明涉及大数据分析领域和信息挖掘技术领域,并特别涉及一种社交平台的早期争议性消息检测方法及系统。
背景技术
随着互联网的飞速发展,以及多种多样的网络交流工具的广泛使用,人们的社交方式发生了深刻的改变。以微博、Twitter为代表的社交媒体凭借其开放性、实时性等特点成为了公众获取信息的重要渠道。社交媒体上丰富的内容,使得用户更青睐于从社交媒体中获取资讯,同时用户的参与也丰富了社交媒体的消息内容,这形成了良好的循环过程。
社交媒体的快速发展及其所体现的良性循环,为人们获取信息和发展社交都提供了便利,然而社交媒体上仍然存在着不少问题。目前社交媒体上的争议性消息层出不穷,可能出现在各个领域。这些争议性消息中往往存在多个持有不同观点的对立方,这些对立方各成一派,针对争议性消息展开激烈的辩论。例如英国脱欧、美国大选等争议性话题在网上的传播和发酵,造成了社会不同阶层之间的孤立和误解。一些严重的争议性消息甚至危害到国家的意识形态安全,亟待监管。因此在争议性消息发酵之前需要及时进行检测,以防止事态进一步恶化。本发明提出一种基于微博平台的早期争议性消息检测方法,目的在于在消息刚发布还未收到评论时,预测该消息是否会引起争议性讨论。
经过调研,目前还没有成熟的早期争议性消息检测方法。
发明内容
本发明目的是解决早期争议性消息的检测。具体来说,本发明提出一种社交平台的早期争议性消息检测方法,其中包括:
步骤1、收集社交平台中关于预设话题下的所有消息,并根据每一条消息的评论信息为每一条消息的争议性进行标记,提取标记后消息的多维度争议性特征作为训练数据,以该训练数据训练梯度提升树模型,得到争议性消息检测模型;
步骤2、从该社交平台获取待发表的消息作为待检测消息,并将该待检测消息的多维度争议性特征输入至该争议性消息检测模型,得到该待检测消息的争议性消息检测结果。
所述的社交平台的早期争议性消息检测方法,其中该步骤1包括:
步骤11、收集发布预设时间段内的热门话题,利用网络爬虫收集热门话题下的所有消息及评论,根据每一个消息的评论中包含观点的争议性,为每一个消息标签标记标签,对每一条消息提取多维度争议性特征,结合每一条消息的标签,得到训练梯度提升树模型的训练数据。
所述的社交平台的早期争议性消息检测方法,其中该多维度争议性特征包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010382894.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于在线图案分割的手柄追踪方法
- 下一篇:业务安全控制方法、装置及存储介质