[发明专利]一种文本推荐方法、装置、服务器及介质有效
申请号: | 202011070128.7 | 申请日: | 2020-09-30 |
公开(公告)号: | CN112163157B | 公开(公告)日: | 2023-01-10 |
发明(设计)人: | 罗锦文;郭伟东 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/35;G06F40/216 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;杜维 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 推荐 方法 装置 服务器 介质 | ||
1.一种文本推荐方法,其特征在于,包括:
获取N个第一关键词,确定每个第一关键词的出现频次序列,其中,任一第一关键词的出现频次序列是在预设时间段内单位时间固定时刻所述任一第一关键词在动态文本集合中的出现频次组合得到,所述N是正整数,所述N个第一关键词包括所述预设时间段内单位时间在所述动态文本集合中的文本中出现的描述主体的频次大于或者等于预设频次阈值的关键词;
获取参考频次序列,在N个第一关键词中,根据所述参考频次序列和每个第一关键词的出现频次序列之间的序列相似度,确定M个第二关键词,其中,所述M是正整数;其中,预先设定的参考频次序列中的参考频次存在某个时刻突然增大的状态;
在目标文本集合中确定与所述M个第二关键词对应的单位文本集合,其中,所述目标文本集合是所述预设时间段内最后一个单位时间固定时刻对应的动态文本集合,所述单位文本集合包括多个文本;
对所述多个文本进行聚类处理,得到多个文本簇,从所述多个文本簇中选择目标文本簇,其中,所述目标文本簇中的目标文本的数量大于数量阈值;
在所述目标文本中,根据所述目标文本的文本主题权重,确定待推荐文本。
2.根据权利要求1所述的方法,其特征在于,所述在N个第一关键词中,根据所述参考频次序列和每个第一关键词的出现频次序列之间的序列相似度,确定M个第二关键词,包括:
确定所述参考频次序列和每个第一关键词的出现频次序列之间的目标距离;
根据所述参考频次序列的序列长度和每个第一关键词的出现频次序列的序列长度,确定每个第一关键词的序列长度总和;
根据每个第一关键词的目标距离,以及每个第一关键词的序列长度总和确定所述参考频次序列和每个第一关键词的出现频次序列之间的序列相似度;
根据所述N个第一关键词的序列相似度,在所述N个第一关键词中确定M个第二关键词。
3.根据权利要求2所述的方法,其特征在于,所述参考频次序列包括i个参考频次,所述出现频次序列包括j个出现频次,所述i,j是正整数;
针对N个第一关键词的出现频次序列中的任一第一关键词的出现频次序列,确定所述参考频次序列和所述任一第一关键词的出现频次序列之间的目标距离的流程包括:
基于动态规划原则,在j个出现频次中为每个参考频次确定对应的出现频次集合;
根据每个参考频次以及每个参考频次对应的出现频次集合,确定每个参考频次的频次距离;
将i个频次距离之和作为所述参考频次序列和所述任一第一关键词的出现频次序列之间的目标距离。
4.根据权利要求2所述的方法,其特征在于,所述根据所述N个第一关键词的序列相似度,在所述N个第一关键词中确定M个第二关键词,包括:
获取第一相似度 阈值;
从所述N个第一关键词的序列相似度中确定M个目标序列相似度,任一目标序列相似度小于所述第一相似度阈值;
将M个目标序列相似度分别对应的第一关键词作为M个第二关键词。
5.根据权利要求1所述的方法,其特征在于,所述对所述多个文本进行聚类处理,得到多个文本簇,包括:
确定每个文本的文本关键词集合和文本实体词集合,其中,所述文本关键词属于所述N个第一关键词;
根据每个文本的文本关键词集合和每个文本的实体关键词集合,将所述多个文本划分为所述多个文本簇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011070128.7/1.html,转载请声明来源钻瓜专利网。