[发明专利]一种谣言识别方法及系统在审
申请号: | 202011178943.5 | 申请日: | 2020-10-29 |
公开(公告)号: | CN112215001A | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 康海燕;蒋鸿玲;方铭浩 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06K9/34;G06K9/62;G06F16/951;G06F16/9535;G06F16/9536;G06N3/04;G06N3/08;G06N20/20;G06Q50/00 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 张梦泽 |
地址: | 100101 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 谣言 识别 方法 系统 | ||
本发明涉及一种谣言识别方法及系统,方法包括:获取词向量训练数据;所述词向量训练数据包括谣言数据和正常数据;对所述词向量训练数据进行分割,得到训练集和验证集;对所述词向量训练数据进行训练,得到词向量模型;采用所述词向量模型和所述训练集对Attention Bi‑LSTM模型进行训练;采用训练好的Attention Bi‑LSTM模型对未知语料进行谣言识别。本发明中的上述方案能够拥有长期记忆,快速识别出改头换面,进行二次传播的谣言。
技术领域
本发明涉及谣言识别领域,特别是涉及一种谣言识别方法及系统。
背景技术
微博、微信等社交媒体上广泛传播着食品、药品、健康等方面的谣言,屡禁不止。
新浪微博的谣言识别机制采用用户举报和人工审核的方法,24小时不间断监控,建立用户举报参与体制。
微信推出小程序-辟谣助手,联合多家权威机构组建微信辟谣中心,对自媒体和个人发布的文章进行筛选审查,确定为谣言后收集、整理到谣言样本库,标记为谣言文章再提醒其他用户。用户可以在这个小程序里搜索关键字来查看文章是否为谣言。并且已确定为谣言的文章在被用户阅读到的时候,辟谣助手会发出提醒。
其他机构辟谣机制也大同小异,均采取人工监督、审核机制。例如人民日报等新闻媒体,均创建辟谣专栏,定期科普流传最火的谣言新闻。
用户阅读文章后,发现是谣言并举报,由平台进行人工审核,确定是谣言并做标记。但如果谣言发布者改头换面再次发布,则会产生二次传播的新谣言。
上述谣言的识别方法效率十分低下,只有被核实的文章才会进入谣言样本库,用户才能在阅读时被提醒,而如果谣言改头换面,打乱语言重新包装,则生成了一篇新的文章,只有再经过用户举报-核实-收集-提醒整个流程才能杀死这篇新谣言,进入一个恶性循环,不能有效遏制谣言的传播。并且现有方法人工成本高昂,消耗大量的人力物力资源。
因此,对于谣言的识别,并且如何高效准确解决社交媒体中谣言二次传播的问题显得尤为重要。
基于此,本发明提出谣言自动化识别方法。利用深度学习算法,设计并训练谣言识别模型,从而实现自动化谣言识别,能够降低成本,提高效率。尤为重要的是,针对谣言二次传播问题,本发明采用的方法能够拥有长期记忆,快速识别出改头换面,进行二次传播的谣言。
发明内容
本发明的目的是提供一种谣言识别方法及系统,能够拥有长期记忆,快速识别出改头换面,进行二次传播的谣言。
为实现上述目的,本发明提供了如下方案:
一种谣言识别方法,所述识别方法包括:
获取词向量训练数据;所述词向量训练数据包括谣言数据和正常数据;
对所述词向量训练数据进行分割,得到训练集和验证集;
对所述词向量训练数据进行训练,得到词向量模型;
采用所述词向量模型和所述训练集对Attention Bi-LSTM模型进行训练;
采用训练好的Attention Bi-LSTM模型对未知语料进行谣言识别。
可选的,所述获取词向量训练数据具体包括:
利用爬虫爬取新闻媒体、社交网站的谣言数据;
利用爬虫爬取新闻媒体、社交网站的所有类别新闻数据作为正常数据;
将所述谣言数据和所述正常数据进行分词处理;
将分词后的谣言数据和分词后的正常数据作为词向量训练数据。
可选的,对所述词向量训练数据进行训练,得到词向量模型具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011178943.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种直齿轮齿隙的清洁保养装置
- 下一篇:一种稳定型激光焊接机