[发明专利]一种新词发现方法、系统、终端及介质有效
申请号: | 202110206093.3 | 申请日: | 2021-02-22 |
公开(公告)号: | CN112966501B | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 崔东林;周润东 | 申请(专利权)人: | 广州寄锦教育科技有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F16/35;G06F40/216;G06F40/126;G06F40/242;G06N3/084;G06N3/045 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 赵秀斌 |
地址: | 510620 广东省广州市天河区天河东路*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 新词 发现 方法 系统 终端 介质 | ||
本发明提供一种新词发现方法、系统、终端及介质,方法包括S1:使用Punctuation‑Entropy‑PMI算法垂直文本领域的文档集合进行预处理,获得第一阶段的候选词集合;S2:对所述第一阶段的候选词集合进行筛选,获得第一文档;S3:将所述第一文档进行预处理,并输入到BERT预训练模型进行文本增强,获得预测序列;S4:标记所述预测序列中的候选词;S5:根据标记的候选词、所述预测序列以及标记建立BERT分类模型;S6:输入文本序列以及待判断的候选词至所述BERT分类模型,获得预测标签,并根据设定的阈值判断所述待判断的候选词是否为新词。采用深度学习BERT预训练模型和无监督新词发现的方法,能有效提高新词发现的准确率。
技术领域
本发明涉及新词发现方法领域,具体涉及一种新词发现方法、系统、终端及介质。
背景技术
随着计算机的不断普及和信息技术的快速发展,知识获取的方式发生了根本性的变化,基于网络的教育方式已逐渐被大家了解和接受。越来越多的专业课程逐渐由线下教学往线上教学进行过渡,专业课程的知识信息也得到了广泛的传播,被用户所了解和掌握。专业课程新词识别在中文分词、信息检索等方面都有着重要的作用。如何从不同的垂直文本领域中快速、准确的识别新词,是自然语言处理学科中研究的重点。
目前,对于新词识别的研究方法主要有三种:基于统计的方法、基于规则的方法和基于统计与规则相结合的方法。基于统计的方法是通过利用各种统计策略来提取候选新词,找出相关度最大的各字串的组合。这类方法的适应性强,可移植性较好,但是,需要大规模语料进行训练,且存在数据稀疏和准确率低的问题。基于规则的方法,首先相关的领域专家利用构词学原理、词性及语义信息构造规则模板,然后对实验数据匹配这些模板及规则来发现新词。基于规则方法的领域性很强,但是其可移植性较差,在规则的制定过程中需要消耗大量的人力、物力。基于统计和规则相结合的方法,融合了统计相关的方法和相应的规则方法的优点来进行新词发现,以期提高新词发现的效果。但是该方法依赖于使用的分词系统,且选取词频作为统计特征,容易忽视低频词。现在大多数研究者采用两者结合的方法,发挥各自的优势,提高新词发现的效果,但是对于少量语料和大量专业新词的垂直文本领域而言新词发现的准确率较低。
发明内容
本发明的目的在于克服现有技术中的缺点,提供一种新词发现方法、系统、终端及介质,具有提高垂直文本领域新词发现的准确率的优点。
本发明的目的是通过以下技术方案来实现的:一种新词发现方法,包括如下步骤:
S1:使用Punctuation-Entropy-PMI算法垂直文本领域的文档集合进行预处理,获得第一阶段的候选词集合;
S2:对所述第一阶段的候选词集合进行筛选,获得第一文档;
S3:将所述第一文档进行预处理,并输入到BERT预训练模型进行文本增强,获得预测序列;
S4:标记所述预测序列中的候选词;
S5:根据标记的候选词、所述预测序列以及标记建立BERT分类模型;
S6:输入文本序列以及待判断的候选词至所述BERT分类模型,获得预测标签,并根据设定的阈值判断所述待判断的候选词是否为新词。
本发明的有益效果是,基于Punctuation-Entropy-PMI算法对垂直文本领域的文档集合进行预处理,使用较低的性能指标对文本进行预处理,从而得到较为宽松的第一阶段的候选词集合;通过对第一阶段的候选词集合进行筛选有效提高准确率,再通过标记的候选词、所述预测序列以及标记建立的BERT分类模型以及根据BERT分类模型进行新词判断,采用深度学习BERT预训练模型和无监督新词发现的方法,能有效提高新词发现的准确率。
进一步,所述S1具体包括:
S101:选择符号集合对垂直文本领域的文档集合进行分割,得到处理后的文档语料集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州寄锦教育科技有限公司,未经广州寄锦教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110206093.3/2.html,转载请声明来源钻瓜专利网。