[发明专利]关键词抽取方法、装置、终端设备及存储介质有效
申请号: | 202011229490.4 | 申请日: | 2020-11-06 |
公开(公告)号: | CN112347778B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 饶刚 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F18/214;G06F16/35;G06F16/33 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 任敏 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键词 抽取 方法 装置 终端设备 存储 介质 | ||
1.一种关键词抽取方法,其特征在于,包括:
获取目标文章中的多个分词;
根据预设的关键词库,从所述多个分词中确定多个候选关键词;
根据所述多个候选关键词和所述目标文章,分别计算所述多个候选关键词中每个候选关键词对应的多个得分值;
将所述每个候选关键词对应的多个得分值输入预先训练的监督模型中,分别得到所述每个候选关键词的词概率,并根据所述词概率从所述多个候选关键词中确定目标关键词;
在所述根据预设的关键词库,从所述多个分词中确定多个候选关键词之前,还包括:
确定所述目标文章的文章领域,获取属于所述文章领域的领域文本;
根据所述领域文本中的多个领域分词,计算每个领域分词之间的领域关联度,其中,计算每个领域分词之间的领域关联度为计算每个领域分词之间的互信息;根据互信息计算每个领域关键词的左右信息,得到左右互信息,并将左右互信息作为领域关联度;
从多个领域关联度中确定大于预设关联度的目标关联度,以及确定所述目标关联度对应的目标领域分词;
将所述目标领域分词存储至所述关键词库中。
2.如权利要求1所述的关键词抽取方法,其特征在于,在所述根据预设的关键词库,从所述多个分词中确定多个候选关键词之前,还包括:
确定所述目标文章的文章领域,并获取属于所述文章领域下的多个领域关键词;
将所述多个领域关键词存储至所述关键词库中。
3.如权利要求1或2所述的关键词抽取方法,其特征在于,所述根据预设的关键词库,从所述多个分词中确定多个候选关键词,包括:
确定所述关键词库中是否包含目标分词,所述目标分词为所述多个分词中的任意一个;
若所述关键词库中包含所述目标分词,则将所述目标分词作为候选关键词;
若所述关键词库中未包含所述目标分词,则判断所述目标分词是否属于实体词;若所述目标分词属于实体词,则将属于所述实体词的目标分词输入至所述监督模型中,得到属于所述实体词的目标分词的关键词概率;若所述关键词概率大于概率阈值,则将所述关键词概率对应的所述目标分词作为候选关键词。
4.如权利要求3所述的关键词抽取方法,其特征在于,所述监督模型通过如下步骤训练得到:
获取训练样本,并从所述训练样本中获取已标注的训练关键词;
对所述训练样本中的文本内容进行分词得到多个样本分词,并分别计算每个样本分词对应的样本得分值;
根据多个样本得分值,从所述多个样本分词中确定样本关键词;
基于所述样本关键词与所述训练关键词,确定所述样本关键词的标记类别;
提取所述样本关键词的关键词特征;
基于所述样本关键词的关键词特征与标记类别进行模型训练,得到所述监督模型。
5.如权利要求1所述的关键词抽取方法,其特征在于,所述多个得分值包括第一得分值、第二得分值、第三得分值和第四得分值;
所述根据所述多个候选关键词和所述目标文章,分别计算所述多个候选关键词中每个候选关键词对应的多个得分值,包括:
统计所述多个分词的数量,并根据所述数量分别计算所述每个候选关键词在所述目标文章中的词频,通过所述词频对应计算所述每个候选关键词的第一得分值;
确定所述多个候选关键词在所述目标文章中的位置,基于所述多个候选关键词在所述目标文章中的位置,计算所述每个候选关键词的第二得分值;
分别确定所述每个候选关键词在所述目标文章中的初始位置和结束位置,根据所述初始位置和所述结束位置计算所述每个候选关键词对应的第三得分值;
根据预设的文本排序算法,计算所述每个候选关键词对应的第四得分值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011229490.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种户外双水泵防冻控制系统
- 下一篇:一种应用于通用飞机的三网融合传输装置