[发明专利]一种谣言识别方法及系统在审
申请号: | 202011178943.5 | 申请日: | 2020-10-29 |
公开(公告)号: | CN112215001A | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 康海燕;蒋鸿玲;方铭浩 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06K9/34;G06K9/62;G06F16/951;G06F16/9535;G06F16/9536;G06N3/04;G06N3/08;G06N20/20;G06Q50/00 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 张梦泽 |
地址: | 100101 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 谣言 识别 方法 系统 | ||
1.一种谣言识别方法,其特征在于,所述识别方法包括:
获取词向量训练数据;所述词向量训练数据包括谣言数据和正常数据;
对所述词向量训练数据进行分割,得到训练集和验证集;
对所述词向量训练数据进行训练,得到词向量模型;
采用所述词向量模型和所述训练集对AttentionBi-LSTM模型进行训练;
采用训练好的AttentionBi-LSTM模型对未知语料进行谣言识别。
2.根据权利要求1所述的谣言识别方法,其特征在于,所述获取词向量训练数据具体包括:
利用爬虫爬取新闻媒体、社交网站的谣言数据;
利用爬虫爬取新闻媒体、社交网站的所有类别新闻数据作为正常数据;
将所述谣言数据和所述正常数据进行分词处理;
将分词后的谣言数据和分词后的正常数据作为词向量训练数据。
3.根据权利要求1所述的谣言识别方法,其特征在于,对所述词向量训练数据进行训练,得到词向量模型具体包括:
采用word2vec对所述词向量训练数据进行训练,得到词向量模型。
4.根据权利要求1所述的谣言识别方法,其特征在于,所述训练好的AttentionBi-LSTM模型包括:输入层、词向量层、双向LSTM层、Attention层和输出层。
5.根据权利要求4所述的谣言识别方法,其特征在于,所述输入层用于将训练集中每个句子定义为T个单词组成的句子S={x1,x2,…,xT},每个词定义为inputXi,标签定义为inputY。
6.根据权利要求5所述的谣言识别方法,其特征在于,所述词向量层用于将每个词inputXi映射为一个固定长度的词向量ei,并基于词向量ei构建词向量矩阵W;W={e1,e2,…,eT}。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011178943.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种直齿轮齿隙的清洁保养装置
- 下一篇:一种稳定型激光焊接机