[发明专利]一种基于词性标记的领域新词提取方法、系统及设备在审

申请号：	202310826531.5	申请日：	2023-07-07
公开（公告）号：	CN116562281A	公开（公告）日：	2023-08-08
发明（设计）人：	侯颖;崔运鹏;罗冠然;黄杰;王婷;王末;刘娟	申请（专利权）人：	中国农业科学院农业信息研究所
主分类号：	G06F40/284	分类号：	G06F40/284;G06F40/289
代理公司：	北京高沃律师事务所 11569	代理人：	刘芳
地址：	100081 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于词性标记领域新词提取方法系统设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于词性标记的领域新词提取方法、系统及设备，涉及自然语言处理领域，该方法包括：对待处理文本进行分词处理，得到多个分词；利用词性标注模型对每个所述分词进行标记，得到词性标记；基于所述词性标记，采用正则表达式从所述待处理文本中选择与定义的词性模式相匹配的候选短语；利用预训练的语言模型，根据所述候选短语与所述待处理文本的语义相似性对所述候选短语进行排序；对排序后的候选短语进行过滤提取领域新词。本发明能够快速准确的提取领域新词。

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种基于词性标记的领域新词提取方法、系统及设备。

背景技术

中文分词是自然语言处理领域的一个重要研究内容，是文本挖掘的第一步，也是非常重要的步骤之一，它是关键词抽取、文本聚类、主题建模、热点分析等的基础，分词结果的好坏直接影响进一步文本处理的准确性。因此，如何快速、准确、有效的识别新词，对提高中文分词效果具有重要作用，对提高工作效率具有重要意义。

中文新词的识别在数据挖掘方面是一个令人关注的领域，不同领域或学科中都有其特定的专业术语，现有分词软件很难做到个性化处理，并准确地对特殊词汇进行分割。目前，针对新词发现研究主要集中于规则匹配、统计、互信息结合n-gram模型等方法。具体而言，既有新词发现方法存在如下问题：1）基于规则的方法虽然准确率较高，但对人力物力消耗大，可扩展性、灵活性比较差；2）基于统计的方法较为灵活，不收领域限制，以扩展且可移植性较好，但存在准确率较低的缺点；3）基于互信息和n-gram模型结合的方法需要预定义n-gram长度，用户通常不知道最佳的n-gram范围，必须经过一些实验找到合适的n-gram范围，即使找到合适的范围，返回的短语仍可能在语法上不正确。

发明内容

本发明的目的是提供一种基于词性标记的领域新词提取方法、系统及设备，以解决现有新词发现方法中存在的人力物力消耗大、可扩展性和灵活性较差、准确率较低以及语法不正确等问题。

为实现上述目的，本发明提供了如下方案：

一种基于词性标记的领域新词提取方法，包括：

对待处理文本进行分词处理，得到多个分词；

利用词性标注模型对每个所述分词进行标记，得到词性标记；

基于所述词性标记，采用正则表达式从所述待处理文本中选择与定义的词性模式相匹配的候选短语；

利用预训练的语言模型，根据所述候选短语与所述待处理文本的语义相似性对所述候选短语进行排序；

对排序后的候选短语进行过滤提取领域新词。

可选地，在对排序后的候选短语进行过滤提取领域新词之后，还包括：

将提取的领域新词添加到用户词典中。

可选地，对待处理文本进行分词处理，得到多个分词，具体包括：