[发明专利]一种基于词性标记的领域新词提取方法、系统及设备在审
申请号: | 202310826531.5 | 申请日: | 2023-07-07 |
公开(公告)号: | CN116562281A | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 侯颖;崔运鹏;罗冠然;黄杰;王婷;王末;刘娟 | 申请(专利权)人: | 中国农业科学院农业信息研究所 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/289 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 刘芳 |
地址: | 100081 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 词性 标记 领域 新词 提取 方法 系统 设备 | ||
本发明公开了一种基于词性标记的领域新词提取方法、系统及设备,涉及自然语言处理领域,该方法包括:对待处理文本进行分词处理,得到多个分词;利用词性标注模型对每个所述分词进行标记,得到词性标记;基于所述词性标记,采用正则表达式从所述待处理文本中选择与定义的词性模式相匹配的候选短语;利用预训练的语言模型,根据所述候选短语与所述待处理文本的语义相似性对所述候选短语进行排序;对排序后的候选短语进行过滤提取领域新词。本发明能够快速准确的提取领域新词。
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于词性标记的领域新词提取方法、系统及设备。
背景技术
中文分词是自然语言处理领域的一个重要研究内容,是文本挖掘的第一步,也是非常重要的步骤之一,它是关键词抽取、文本聚类、主题建模、热点分析等的基础,分词结果的好坏直接影响进一步文本处理的准确性。因此,如何快速、准确、有效的识别新词,对提高中文分词效果具有重要作用,对提高工作效率具有重要意义。
中文新词的识别在数据挖掘方面是一个令人关注的领域,不同领域或学科中都有其特定的专业术语,现有分词软件很难做到个性化处理,并准确地对特殊词汇进行分割。目前,针对新词发现研究主要集中于规则匹配、统计、互信息结合n-gram模型等方法。具体而言,既有新词发现方法存在如下问题:1)基于规则的方法虽然准确率较高,但对人力物力消耗大,可扩展性、灵活性比较差;2)基于统计的方法较为灵活,不收领域限制,以扩展且可移植性较好,但存在准确率较低的缺点;3)基于互信息和n-gram模型结合的方法需要预定义n-gram长度,用户通常不知道最佳的n-gram范围,必须经过一些实验找到合适的n-gram范围,即使找到合适的范围,返回的短语仍可能在语法上不正确。
发明内容
本发明的目的是提供一种基于词性标记的领域新词提取方法、系统及设备,以解决现有新词发现方法中存在的人力物力消耗大、可扩展性和灵活性较差、准确率较低以及语法不正确等问题。
为实现上述目的,本发明提供了如下方案:
一种基于词性标记的领域新词提取方法,包括:
对待处理文本进行分词处理,得到多个分词;
利用词性标注模型对每个所述分词进行标记,得到词性标记;
基于所述词性标记,采用正则表达式从所述待处理文本中选择与定义的词性模式相匹配的候选短语;
利用预训练的语言模型,根据所述候选短语与所述待处理文本的语义相似性对所述候选短语进行排序;
对排序后的候选短语进行过滤提取领域新词。
可选地,在对排序后的候选短语进行过滤提取领域新词之后,还包括:
将提取的领域新词添加到用户词典中。
可选地,对待处理文本进行分词处理,得到多个分词,具体包括:
根据用户词典中的领域专业词表对待处理文本进行分词处理,得到多个分词。
可选地,对排序后的候选短语进行过滤提取领域新词,具体包括:
通过相似性阈值或者topN对排序后的候选短语进行过滤提取领域新词。
本发明还提供了一种基于词性标记的领域新词提取系统,包括:
分词处理单元,用于对待处理文本进行分词处理,得到多个分词;
词性标记单元,用于利用词性标注模型对每个所述分词进行标记,得到词性标记;
候选短语选择单元,用于基于所述词性标记,采用正则表达式从所述待处理文本中选择与定义的词性模式相匹配的候选短语;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业科学院农业信息研究所,未经中国农业科学院农业信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310826531.5/2.html,转载请声明来源钻瓜专利网。