[发明专利]一种基于多层编码网络的谣言检测方法及系统在审

申请号：	202210025558.X	申请日：	2022-01-11
公开（公告）号：	CN114328843A	公开（公告）日：	2022-04-12
发明（设计）人：	林佳;刘慧;韦苏美;王玉峰	申请（专利权）人：	南京邮电大学
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/35;G06F40/247;G06F40/284;G06F40/30;G06K9/62
代理公司：	南京纵横知识产权代理有限公司 32224	代理人：	董建林
地址：	210003 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于多层编码网络谣言检测方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于多层编码网络的谣言检测方法及系统，属于自然语言处理领域，包括：获取所有待检测的文本，对文本进行预处理；将带有标记词汇表的词片嵌入预处理后的文本，将文本中单词转换为token标记词，然后进行向量编码得到各文本对应的词向量；对所有词向量进行处理得到输入向量；将输入向量输入预训练好的多层编码网络中，生成输出向量；将输出向量进行处理得到隐藏状态向量；将隐藏状态向量送入隐藏层和分类器，得到待检测文本被检测为各谣言类别的概率，概率最大的类别为该文本的检测结果；有效缓解了训练速度慢、效果差等问题，实现对词语和句子级别信息的学习，有利于提取不同文本之间的关系表示，提高了谣言检测的准确性。

技术领域

本发明涉及一种基于多层编码网络的谣言检测方法及系统，属于自然语言处理领域。

背景技术

谣言验证的目的是确定谣言的真实性，现有的谣言真实性分类研究方法可分为两类：基于手动提取特征的方法和基于深度学习的方法；近几年的研究为避免繁重的特征工程，开始将深度学习应用于谣言真实性验证的任务中；而在深度学习中，最先提出的模型使用Word2Vec得到每个单词的词嵌入，更容易找出语义相近的其他词汇，并在之后的研究中被广泛应用；但词嵌入无法区分多义词的不同语义，导致两种不同的上下文信息编码到相同的词嵌入空间中。

同时较为传统的基于LSTM、CNNs、RNN等神经网络的谣言检测方法往往在进行文本向量编码时忽视不同文本之间的关系，而只是将它们作为单个词汇信息的表达进行输入，即使之后进行特征抽取时关注上下文信息也会损失一部分原有句间关系的表达。

发明内容

本发明的目的在于提供一种基于多层编码网络的谣言检测方法及系统，有效缓解了因为英语中不同后缀的词数量繁多、词表基数庞大导致的训练速度慢、效果不佳等问题，能够帮助更好地对英文语义进行理解，便于提取句子的语义特征，提高了谣言检测的准确性；实现对词语级别的上下文信息、句子级别的语义表征的学习，有利于提取不同文本之间的关系表示，提高了谣言检测的准确性。

为实现以上目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种基于多层编码网络的谣言检测方法，包括：

获取所有待检测的文本，对文本进行预处理；

将带有标记词汇表的词片嵌入预处理后的文本，将文本中单词转换为token标记词，然后进行向量编码得到各文本对应的词向量；

对所有词向量进行处理得到输入向量；

将输入向量输入预训练好的多层编码网络中，生成输出向量；

将输出向量进行处理得到隐藏状态向量；

将隐藏状态向量送入隐藏层和分类器，得到待检测文本被检测为各谣言类别的概率，概率最大的类别为该文本的检测结果。

结合第一方面，进一步的，所述待检测的文本数量为两条。

结合第一方面，进一步的，对文本进行预处理的方法包括：

将待检测的文本去除标点符号和特殊字符，并将所有字符转换为小写，得到预处理后的文本。

结合第一方面，进一步的，对所有词向量进行处理得到输入向量的方法包括：