[发明专利]基于主题挖掘的水利领域文本的检索方法与系统在审
申请号: | 202210079358.2 | 申请日: | 2022-01-24 |
公开(公告)号: | CN114490938A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 冯钧;苏栋;陆佳民 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/216;G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210024 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 主题 挖掘 水利 领域 文本 检索 方法 系统 | ||
本发明公开了一种基于主题挖掘的水利领域文本的检索方法与系统,所述方法步骤如下:收集数据集;数据集预处理;构建基于主题挖掘的双向对抗神经网络和双向GRU联合的主题注意力模型GAN‑BiGRU Topic Attention Model;测试集验证测试;主题相关排序;进行主题检索;所述系统包括数据爬取模块、索引构建模块与数据检索模块。本发明在主题多样性检测及主题连贯性检测和下游分类任务的准确率与召回率都显著高于现有方法,为本相关领域研究提供了一种新的解决方案;本发明立足于充足的领域数据储备支撑,率先将双向对抗神经网络和双向GRU组合形成的网络模型使用在水利检索领域,为主题模型检索在水利领域的应用做出贡献。
技术领域
本发明涉及自然语言处理与信息检索,特别是一种基于主题挖掘的水利领域 文本的检索方法与系统。
背景技术
现如今我们正处于一个信息化的时代,随着计算机、大数据技术、云计算技 术、人工智能技术等在信息领域得到了普及与使用,各种资料与文献的电子化数 字化给传统模式的信息检索带来了巨大的影响,所以信息检索技术及其相关的技 术在现如今仍被广泛使用,并且不断发展与创新。近代以来,我国水利行业蓬勃 发展,在相关水利领域积累了大量的文本数据,水利类信息过载的问题也随之愈 发严峻,用户在海量数据中检索自己需要的信息变得越来越难。
在现有的研究中,贝叶斯概率主题模型(BPTM)是最流行和最成功的传统 模型系列,其中潜在狄利克雷分布(LDA)是最著名的代表。BPTM通常指定一 个概率生成模型,该模型生成具有潜在变量结构的文档数据,该结构从通过贝叶 斯定理连接的预先指定的分布中采样,主题由这些潜在变量捕获。与其他贝叶斯 模型一样,BPTM的学习是通过贝叶斯推理过程完成的。但该方法仍具有以下不 足:第一,推理过程需要定制、推理复杂度随着模型复杂度的增加而显著增加、 推理过程的设计难以自动化。第二,该方法难以在大型文本集合上开展有效地扩 展并利用GPU进行并行计算。第三,该方法不具备可拓展性,不能与其他深度神 经网络进行联合训练。
发明内容
发明目的:本发明的目的是提供一种基于主题挖掘的水利领域文本的检索方 法与系统,提高本模型在主题多样性及主题连贯性以及下游分类任务的准确率与 召回率,进而实现高效率高准确度的水利领域文本检索。
技术方案:本发明所述的一种基于主题挖掘的水利领域文本的检索方法,包 括以下步骤:
(1)整理实验数据集,对数据集进行脱敏信息处理以及文本数据预处理;所 述的实验数据集主要包括公共数据集THUCnews、20newsgroups以及构建的水利 公文数据集。
(1.1)去除停用词:首先构建水利领域停用词集合,将现有停用词表加入到 该水利领域停用词集合中,使用Jieba分词工具对输入文本数据进行分词,分词 的过程中查询构造的停用词集合,如当前词在停用词集合中出现,则将其过滤, 完成停用词去除;
(1.2)去除标点符号:首先构造标点符号集合,将现有的标点符号表加入到 集合中,使用Jieba分词工具对输入文本数据进行分词,分词的过程中查询构造 的标点符号集合,如当前词在标点符号集合中出现,则将其过滤,完成标点符号 清洗;
(1.3)拼写纠错:采用最小编辑距离完成拼写纠错,最小编辑距离指将一个 错误拼写的单词纠正正确的最小编辑次数,此处编辑包含插入、删除、修改三种 操作,且每一次编辑只能改变一个字母;纠错的流程包括:识别错误拼写单词, 如果一个词不在已有的词汇表中,则将其视为错误单词,对其计算最小编辑距离 并构建候选编辑列表,此处编辑操作包含插入、删除、交换、替换四种操作,通 过四种操作,得到全部可能的组合情况构成编辑列表;对编辑列表进行枚举填空 后,只保留存于词汇表中的正确单词,使用词概率计算正确单词的概率,选择词 概率最高的词作为拼写纠错的结果。
(2)构建基于主题挖掘的双向对抗神经网络和双向GRU联合的主题注意力 模型GAN-BiGRU Topic Attention Model,使用步骤(1)中训练集进行训练;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210079358.2/2.html,转载请声明来源钻瓜专利网。