[发明专利]关键词提取方法和装置有效
申请号: | 201611039501.6 | 申请日: | 2016-11-10 |
公开(公告)号: | CN108073568B | 公开(公告)日: | 2020-09-11 |
发明(设计)人: | 鲍晓 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/216;G06F40/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 朱雅男 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键词 提取 方法 装置 | ||
1.一种关键词提取方法,其特征在于,所述方法包括:
从目标文本中提取候选关键词;
对于每一个候选关键词,获取所述候选关键词对应的有效特征,所述有效特征是指对关键词判定具有区分功能的特征,所述有效特征包括各个特征值上的样本占比与对应的特征值之间为单调递增或单调递减关系的候选特征;
根据所述候选关键词对应的有效特征和各项所述有效特征分别对应的加权系数计算所述候选关键词属于关键词的概率,并根据所述概率确定是否将所述候选关键词作为所述目标文本的关键词;
其中,所述有效特征的确定过程如下:
获取多项候选特征和多个标注样本,所述标注样本是指已标注出关键词的文本;
对于每一项候选特征,统计在所述候选特征的各个特征值上的样本占比;
如果所述样本占比与所述候选特征的特征值之间的关系符合预设条件,则将所述候选特征确定为一项有效特征,每一项确定的有效特征用于在从任一目标文本中提取关键词时作为关键词判定的依据;
其中,所述样本占比为正样本占比或负样本占比,所述正样本占比是指所述标注样本中正样本的数量与所述标注样本的数量的比值,所述负样本占比是指所述标注样本中负样本的数量与所述标注样本的数量的比值,所述正样本是指存在符合所述候选特征的特征值的关键词的标注样本,所述负样本是指不存在符合所述候选特征的特征值的关键词的标注样本。
2.根据权利要求1所述的方法,其特征在于,所述根据所述候选关键词对应的有效特征和各项所述有效特征分别对应的加权系数计算所述候选关键词属于关键词的概率,并根据所述概率确定是否将所述候选关键词作为所述目标文本的关键词,包括:
将所述候选关键词对应的有效特征输入至关键词评价模型,采用所述关键词评价模型根据所述候选关键词对应的有效特征和各项所述有效特征分别对应的加权系数计算所述候选关键词属于关键词的概率,并根据所述概率确定是否将所述候选关键词作为所述目标文本的关键词。
3.根据权利要求2所述的方法,其特征在于,所述将所述候选关键词对应的有效特征作为关键词评价模型的输入之前,还包括:
将所述候选关键词对应的有效特征输入至特征处理模型,采用所述特征处理模型对所述候选关键词对应的有效特征进行预定处理,得到所述候选关键词对应的处理后的有效特征;
其中,所述候选关键词对应的处理后的有效特征作为所述关键词评价模型的输入,所述预定处理包括连续特征离散化处理、特征组合处理中的至少一种。
4.根据权利要求3所述的方法,其特征在于,所述将所述候选关键词对应的有效特征作为特征处理模型的输入之前,还包括:
构建梯度提升决策树GBDT算法的训练样本;
采用GBDT算法对所述GBDT算法的训练样本进行训练,得到GBDT模型,将所述GBDT作为所述特征处理模型;
其中,所述GBDT算法的训练样本包括第一正样本和第一负样本;所述第一正样本为样本文本中属于关键词的字词,所述第一正样本以所述样本文本中属于关键词的字词对应的有效特征表示;所述第一负样本为所述样本文本中不属于关键词的字词,所述第一负样本以所述样本文本中不属于关键词的字词对应的有效特征表示;所述GBDT模型包括多棵决策树,所述决策树的每一个叶子节点对应于一项处理后的有效特征。
5.根据权利要求4所述的方法,其特征在于,所述采用GBDT算法对所述GBDT算法的训练样本进行训练,得到GBDT模型之后,还包括:
根据各个所述GBDT算法的训练样本在各棵所述决策树中的预测结果,构建逻辑回归LR算法的训练样本;
采用LR算法对所述LR算法的训练样本进行训练,得到LR模型,将所述LR模型作为所述关键词评价模型;
其中,所述LR算法的训练样本包括第二正样本和第二负样本;所述第二正样本为所述样本文本中属于关键词的字词,所述第二正样本以所述样本文本中属于关键词的字词对应的处理后的有效特征表示;所述第二负样本为所述样本文本中不属于关键词的字词,所述第二负样本以所述样本文本中不属于关键词的字词对应的处理后的有效特征表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611039501.6/1.html,转载请声明来源钻瓜专利网。