[发明专利]关键词抽取方法、装置、终端设备及存储介质有效
申请号: | 202011229490.4 | 申请日: | 2020-11-06 |
公开(公告)号: | CN112347778B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 饶刚 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F18/214;G06F16/35;G06F16/33 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 任敏 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键词 抽取 方法 装置 终端设备 存储 介质 | ||
本申请适用于人工智能技术领域,提供了一种关键词抽取方法、装置、终端设备及存储介质,其中,方法包括:获取目标文章中的多个分词;根据预设的关键词库,从所述多个分词中确定多个候选关键词;根据所述多个候选关键词和所述目标文章,分别计算所述多个候选关键词中每个候选关键词对应的多个得分值;将所述每个候选关键词对应的多个得分值输入预先训练的监督模型中,分别得到所述每个候选关键词的词概率,并根据所述词概率从所述多个候选关键词中确定目标关键词。采用上述方法从目标文章中提取目标关键词,可以保证提取的目标关键词均属于与目标文章关联度高的高质量词汇。
技术领域
本申请属于人工智能技术领域,尤其涉及一种关键词抽取方法、装置、终端设备及存储介质。
背景技术
现有技术中,关键词抽取在文本处理的许多领域中均应用广泛,例如,文本聚类领域、文本摘要领域和信息检索领域。在当下大数据时代,关键词抽取基本上是通过提取文本中的每个词的单一信息进行判断。目前,流行的有采用基于图的排序算法TextRank算法或主题模型(latent dirichlet allocation,LDA)得到文本的关键词。然而,有些特殊词汇,如人名、地名等信息,常常会被忽略,而该信息可能为文本中的重要信息。因此,目前抽取文本关键词的方法难以准确提取出与文本相关的高质量的关键词。
发明内容
本申请实施例提供了一种关键词抽取方法、装置、终端设备及存储介质,可以解决目前抽取文本关键词的方法难以准确提取出与文本相关的高质量关键词的问题。
第一方面,本申请实施例提供了一种关键词抽取方法,包括:
获取目标文章中的多个分词;
根据预设的关键词库,从所述多个分词中确定多个候选关键词;
根据所述多个候选关键词和所述目标文章,分别计算所述多个候选关键词中每个候选关键词对应的多个得分值;
将所述每个候选关键词对应的多个得分值输入预先训练的监督模型中,分别得到所述每个候选关键词的词概率,并根据所述词概率从所述多个候选关键词中确定目标关键词。
在一实施例中,在所述根据预设的关键词库,从所述多个分词中确定多个候选关键词之前,还包括:
确定所述目标文章的文章领域,获取属于所述文章领域的领域文本;
根据所述领域文本中的多个领域分词,计算每个领域分词之间的领域关联度;
从多个领域关联度中确定大于预设关联度的目标关联度,以及确定所述目标关联度对应的目标领域分词;
将所述目标领域分词存储至所述关键词库中。
在一实施例中,在所述根据预设的关键词库,从所述多个分词中确定多个候选关键词之前,还包括:
确定所述目标文章的文章领域,并获取属于所述文章领域下的多个领域关键词;
将所述多个领域关键词存储至所述关键词库中。
在一实施例中,所述根据预设的关键词库,从所述多个分词中确定多个候选关键词,包括:
确定所述关键词库中是否包含目标分词,所述目标分词为所述多个分词中的任意一个;
若所述关键词库中包含所述目标分词,则将所述目标分词作为候选关键词;
若所述关键词库中未包含所述目标分词,则判断所述目标分词是否属于实体词;若所述目标分词属于实体词,则将属于所述实体词的目标分词输入至所述监督模型中,得到属于所述实体词的目标分词的关键词概率;若所述关键词概率大于概率阈值,则将所述关键词概率对应的所述目标分词作为候选关键词。
在一实施例中,所述监督模型通过如下步骤训练得到:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011229490.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种户外双水泵防冻控制系统
- 下一篇:一种应用于通用飞机的三网融合传输装置