[发明专利]关键词提取方法和装置、存储介质及电子装置有效
申请号: | 201710991231.7 | 申请日: | 2017-10-20 |
公开(公告)号: | CN108334533B | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 杨正伟;汤煌;张小鹏 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F16/35;G06F40/216 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 董晶;王琦 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键词 提取 方法 装置 存储 介质 电子 | ||
1.一种关键词提取方法,其特征在于,包括:
获取目标文本中的候选关键词集;
根据所述候选关键词集中候选关键词的主题相似度、以及所述候选关键词的文本转换频率,获取所述候选关键词的加权结果,其中,所述主题相似度为所述候选关键词与所述目标文本的相似度,所述主题相似度用于指示在K个主题中,所述候选关键词为第k个主题,且所述目标文本也为所述第k个主题的概率,k大于等于1,且小于等于K,
获取所述候选关键词的属性信息,其中,所述属性信息包括:所述候选关键词的词性,及所述候选关键词在所述目标文本中的词频;
根据所述候选关键词的词性及所述候选关键词在所述目标文本中的位置,确定候选关键词的提取系数;获取所述提取系数、所述词频及所述加权结果的乘积,根据以下公式确定所述候选 关键词的提取度:
weightw=S1*tf*{S2*IDFw+(1-S2)*T};
其中,所述提取度用于指示所述候选关键词作为与所述目标文本匹配的关键词被提取出的概率;S1为所述提取系数,tf为所述候选关键词的词频,S2*IDFw+(1-S2)*T为所述加权结果;IDFw为所述候选关键词的文本转换频率,T为所述主题相似度,S2为调节IDFw与主题相似度T的参数;
根据所述提取度从所述候选关键词集中提取出所述关键词;
所述根据所述候选关键词的词性及所述候选关键词在所述目标文本中的位置,确定所述候选关键词的提取系数包括:
在所述候选关键词出现在与所述目标文本对应的标题中的情况下,确定出的所述提取系数大于与所述词性匹配的词性系数;
在所述候选关键词并未出现在与所述目标文本对应的标题中的情况下,确定出的所述提取系数等于与所述词性匹配的所述词性系数;
其中,所述词性系数根据所述候选关键词的词性确定数值,在所述词性为名词的情况下,所述词性系数为第一数值;在所述词性为动词的情况下,所述词性系数为第二数值;在所述词性为其他词性的词的情况下,所述词性系数为第三数值。
2.根据权利要求1所述的方法,其特征在于,在根据所述候选关键词集中候选关键词的主题相似度、以及所述候选关键词的文本转换频率,获取所述候选关键词的加权结果之前,还包括:
获取所述目标文本所在语料库中的全部文本数量,与在所述语料库中包含所述候选关键词的文本数量二者之间的第一比值;
获取在预设搜索平台中的总搜索条目数量,以及在所述预设搜索平台中包含所述候选关键词的搜索条目数量;
根据所述搜索条目数量与所述总搜索条目数量确定二者之间的第二比值;
对所述第一比值与所述第二比值二者的乘积进行取对数运算,得到所述候选关键词的所述文本转换频率。
3.根据权利要求1所述的方法,其特征在于,在根据所述候选关键词集中候选关键词的主题相似度、以及所述候选关键词的文本转换频率,获取所述候选关键词的加权结果之前,还包括:
获取与所述候选关键词匹配的第一主题分布数据,其中,所述第一主题分布数据用于指示在K个主题中,所述候选关键词为第k个主题的概率;
获取与所述目标文本匹配的第二主题分布数据,其中,所述第二主题分布数据用于指示在所述K个主题中,所述目标文本为所述第k个主题的概率;
根据所述第一主题分布数据及所述第二主题分布数据,确定所述候选关键词与所述目标文本的所述主题相似度。
4.根据权利要求1所述的方法,其特征在于,在所述根据所述提取度从所述候选关键词集中提取出所述关键词之后,还包括以下至少之一:
根据提取出的所述关键词为所述目标文本匹配文本标签,其中,所述文本标签用于标识所述目标文本的分类信息;根据所述文本标签将所述目标文本推送给相匹配的用户账号;
根据提取出的所述关键词为获取到所述目标文本的目标账号匹配账号标签,其中,所述账号标签用于标识所述目标账号的分类信息;根据所述账号标签为所述目标账号推送相匹配的文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710991231.7/1.html,转载请声明来源钻瓜专利网。