[发明专利]关键词提取方法、装置、电子设备及介质有效
申请号: | 201911044136.1 | 申请日: | 2019-10-30 |
公开(公告)号: | CN110852100B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 李兆兴;王鹏;王永会 | 申请(专利权)人: | 北京大米科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/335 |
代理公司: | 北京恒博知识产权代理有限公司 11528 | 代理人: | 李宁宁 |
地址: | 100007 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键词 提取 方法 装置 电子设备 介质 | ||
本申请公开了一种关键词提取方法、装置、电子设备及介质。其中,本申请中,在获取目标文本之后,可以基于预设方式,对目标文本进行预处理,得到至少一个候选词,再利用主题计算模型确定各候选词所对应的至少一个主题类别,再基于至少一个主题类别,从至少一个候选词中进行提取,得到至少一个目标关键词。通过应用本申请的技术方案,可以在对目标文本进行无关词语的过滤后,利用主题计算模型以及目标词嵌入模型对目标文本中的候选关键词进行提取,得到用户感兴趣的目标关键词。进而可以避免相关技术中存在的仅依靠词语出现次数来选择关键词所导致的准确率不高的问题。
技术领域
本申请中涉及数据处理技术,尤其是一种关键词提取方法、装置、电子设备及介质
背景技术
由于通信时代和社会的兴起,用户会在互联网上浏览各式文本以达到查找所需内容的目的。
其中,通常在面对海量文本时,为了能够帮助用户快速查询到其所需要的内容。通常是以提取关键词的方式向用户进行展示,以使用户根据对该关键词的兴趣指数,选择是否浏览对应的文本数据。进一步的,关键词对于句子的表示有指导意义,在相似度计算、文本分类方面有重要作用,是快速获取文本主题的重要方式,在信息检索和自然语言处理等领域均有重要应用。引入关键词的概念,可以对大量的文本数据集进行切分和提取关键信息,并选择最具代表性的词作为关键字。
然而,传统的方法仅依靠词汇的统计信息进行推荐,这样的关键词提取方法的准确度难以保证。
发明内容
本申请实施例提供一种关键词提取方法、装置、电子设备及介质。
其中,根据本申请实施例的一个方面,提供的一种关键词提取方法,其特征在于,包括:
对目标文本进行预处理,得到至少一个候选词;
基于主题计算模型,确定各所述候选词所对应的至少一个主题类别;
基于所述至少一个主题类别,从所述至少一个候选词中进行提取,得到至少一个目标关键词。
可选地,在基于本申请上述方法的另一个实施例中,所述基于主题计算模型,确定各所述候选词所对应的至少一个主题,包括:基于预先训练好的至少一个所述主题计算模型,对各所述候选词进行识别,得到各所述候选词对应的至少一个主题类别。
可选地,在基于本申请上述方法的另一个实施例中,所述基于所述至少一个主题类别,从所述至少一个候选词中进行提取,得到至少一个目标关键词,包括:
将各所述候选词按照所述主题类别进行分类,得到各所述主题类别对应的至少一个所述候选词;
基于各所述候选词对应的词向量,对各所述主题类别中的每一个,计算该主题类别所对应的至少一个所述候选词与该主题类别所对应的至少一个主题词之间的相似度,基于计算结果,对该主题类别所对应的至少一个所述候选词进行排序;
基于排序结果,从各所述主题类别中选择排名在预设范围的候选词作为所述目标关键词。
基于预先训练好的至少一个所述主题计算模型,对各所述候选词进行识别,得到各所述候选词的至少一个主题标签,所述主题标签用于反映所述候选词所对应的所述主题类别。
可选地,在基于本申请上述方法的另一个实施例中,所述基于预先训练好的至少一个主题计算模型,对各所述候选词进行识别,得到各所述至少一个候选词对应的至少一个主题类别,包括:
基于各所述主题计算模型,分别对各所述候选词进行识别,得到每个所述候选词对应的至少一个权重系数,其中每个所述权重系数分别对应不同的主题类别;
从每个所述候选词对应的至少一个权重系数中,选取满足条件的权重系数作为目标权重系数;
将所述目标权重系数对应的主题类别作为所述候选词对应的主题类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大米科技有限公司,未经北京大米科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911044136.1/2.html,转载请声明来源钻瓜专利网。