[发明专利]关键词提取方法、装置、电子设备及介质有效
申请号: | 201911044136.1 | 申请日: | 2019-10-30 |
公开(公告)号: | CN110852100B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 李兆兴;王鹏;王永会 | 申请(专利权)人: | 北京大米科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/335 |
代理公司: | 北京恒博知识产权代理有限公司 11528 | 代理人: | 李宁宁 |
地址: | 100007 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键词 提取 方法 装置 电子设备 介质 | ||
1.一种关键词提取方法,其特征在于,包括:
对目标文本进行预处理,得到至少一个候选词;
基于主题计算模型,确定各所述候选词所对应的至少一个主题类别;
基于所述至少一个主题类别,从所述至少一个候选词中进行提取,得到至少一个目标关键词;
所述基于所述至少一个主题类别,从所述至少一个候选词中进行提取,得到至少一个目标关键词,包括:
将各所述候选词按照所述主题类别进行分类,得到各所述主题类别对应的至少一个所述候选词;
基于各所述候选词对应的词向量,对各所述主题类别中的每一个,计算该主题类别所对应的至少一个所述候选词与该主题类别所对应的至少一个主题词之间的相似度,基于计算结果,对该主题类别所对应的至少一个所述候选词进行排序;
基于排序结果,从各所述主题类别中选择排名在预设范围的候选词作为所述目标关键词;
基于预先训练好的至少一个所述主题计算模型,对各所述候选词进行识别,得到各所述候选词的至少一个主题标签,所述主题标签用于反映所述候选词所对应的所述主题类别。
2.如权利要求1所述的方法,其特征在于,所述基于主题计算模型,确定各所述候选词所对应的至少一个主题类别,包括:
基于各所述主题计算模型,分别对各所述候选词进行识别,得到每个所述候选词对应的至少一个权重系数,其中每个所述权重系数分别对应不同的主题类别;
从每个所述候选词对应的至少一个权重系数中,选取满足条件的权重系数作为目标权重系数;
将所述目标权重系数对应的主题类别作为所述候选词对应的主题类别。
3.如权利要求1所述的方法,其特征在于,所述对目标文本进行预处理,得到至少一个候选词,包括:
对所述目标文本进行分词处理,获取所述目标文本对应的至少一个词组;
对所述至少一个词组进行停用词去除以及词性过滤,得到所述至少一个候选词。
4.如权利要求1所述的方法,其特征在于,所述主题计算模型包含基于样本文本训练好的神经网络模型。
5.如权利要求4所述的方法,其特征在于,还包括:基于词嵌入模型对所述至少一个候选词进行向量化,得到各所述候选词对应的词向量,其中,所述词嵌入模型基于样本文本预先训练得到。
6.一种关键词提取装置,其特征在于,包括:
获取模块,被设置为对目标文本进行预处理,得到至少一个候选词;
确定模块,被设置为基于主题计算模型,确定各所述候选词所对应的至少一个主题类别;
生成模块,被设置为基于所述至少一个主题类别,从所述至少一个候选词中进行提取,得到至少一个目标关键词;
所述生成模块还被配置为将各所述候选词按照所述主题类别进行分类,得到各所述主题类别对应的至少一个所述候选词;
基于各所述候选词对应的词向量,对各所述主题类别中的每一个,计算该主题类别所对应的至少一个所述候选词与该主题类别所对应的至少一个主题词之间的相似度,基于计算结果,对该主题类别所对应的至少一个所述候选词进行排序;
基于排序结果,从各所述主题类别中选择排名在预设范围的候选词作为所述目标关键词;
所述生成模块还被配置为基于预先训练好的至少一个所述主题计算模型,对各所述候选词进行识别,得到各所述候选词的至少一个主题标签,所述主题标签用于反映所述候选词所对应的所述主题类别。
7.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;以及,
处理器,用于与所述存储器显示以执行所述可执行指令从而完成权利要求1-5中任一所述关键词提取方法的操作。
8.一种计算机可读存储介质,用于存储计算机可读取的指令,其特征在于,所述指令被执行时执行权利要求1-5中任一所述关键词提取方法的操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大米科技有限公司,未经北京大米科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911044136.1/1.html,转载请声明来源钻瓜专利网。