[发明专利]一种基于多层编码网络的谣言检测方法及系统在审
申请号: | 202210025558.X | 申请日: | 2022-01-11 |
公开(公告)号: | CN114328843A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 林佳;刘慧;韦苏美;王玉峰 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/247;G06F40/284;G06F40/30;G06K9/62 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多层 编码 网络 谣言 检测 方法 系统 | ||
本发明公开了一种基于多层编码网络的谣言检测方法及系统,属于自然语言处理领域,包括:获取所有待检测的文本,对文本进行预处理;将带有标记词汇表的词片嵌入预处理后的文本,将文本中单词转换为token标记词,然后进行向量编码得到各文本对应的词向量;对所有词向量进行处理得到输入向量;将输入向量输入预训练好的多层编码网络中,生成输出向量;将输出向量进行处理得到隐藏状态向量;将隐藏状态向量送入隐藏层和分类器,得到待检测文本被检测为各谣言类别的概率,概率最大的类别为该文本的检测结果;有效缓解了训练速度慢、效果差等问题,实现对词语和句子级别信息的学习,有利于提取不同文本之间的关系表示,提高了谣言检测的准确性。
技术领域
本发明涉及一种基于多层编码网络的谣言检测方法及系统,属于自然语言处理领域。
背景技术
谣言验证的目的是确定谣言的真实性,现有的谣言真实性分类研究方法可分为两类:基于手动提取特征的方法和基于深度学习的方法;近几年的研究为避免繁重的特征工程,开始将深度学习应用于谣言真实性验证的任务中;而在深度学习中,最先提出的模型使用Word2Vec得到每个单词的词嵌入,更容易找出语义相近的其他词汇,并在之后的研究中被广泛应用;但词嵌入无法区分多义词的不同语义,导致两种不同的上下文信息编码到相同的词嵌入空间中。
同时较为传统的基于LSTM、CNNs、RNN等神经网络的谣言检测方法往往在进行文本向量编码时忽视不同文本之间的关系,而只是将它们作为单个词汇信息的表达进行输入,即使之后进行特征抽取时关注上下文信息也会损失一部分原有句间关系的表达。
发明内容
本发明的目的在于提供一种基于多层编码网络的谣言检测方法及系统,有效缓解了因为英语中不同后缀的词数量繁多、词表基数庞大导致的训练速度慢、效果不佳等问题,能够帮助更好地对英文语义进行理解,便于提取句子的语义特征,提高了谣言检测的准确性;实现对词语级别的上下文信息、句子级别的语义表征的学习,有利于提取不同文本之间的关系表示,提高了谣言检测的准确性。
为实现以上目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种基于多层编码网络的谣言检测方法,包括:
获取所有待检测的文本,对文本进行预处理;
将带有标记词汇表的词片嵌入预处理后的文本,将文本中单词转换为token标记词,然后进行向量编码得到各文本对应的词向量;
对所有词向量进行处理得到输入向量;
将输入向量输入预训练好的多层编码网络中,生成输出向量;
将输出向量进行处理得到隐藏状态向量;
将隐藏状态向量送入隐藏层和分类器,得到待检测文本被检测为各谣言类别的概率,概率最大的类别为该文本的检测结果。
结合第一方面,进一步的,所述待检测的文本数量为两条。
结合第一方面,进一步的,对文本进行预处理的方法包括:
将待检测的文本去除标点符号和特殊字符,并将所有字符转换为小写,得到预处理后的文本。
结合第一方面,进一步的,对所有词向量进行处理得到输入向量的方法包括:
在第一条词向量的首部和两条词向量之间添加标志位,将多条词向量进行分隔后合并多条词向量,再将其与位置向量、各词向量对应的分段向量逐位纵向拼接,得到输入向量。
结合第一方面,进一步的,将输入向量输入预训练好的多层编码网络中,生成输出向量,包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210025558.X/2.html,转载请声明来源钻瓜专利网。