[发明专利]推荐标签获取方法、媒体内容推荐方法、装置及存储介质有效
申请号: | 201710654487.9 | 申请日: | 2017-08-03 |
公开(公告)号: | CN109388760B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 赵铭;曹凯;温旭;范欣;颜景善;王树伟;何鑫 | 申请(专利权)人: | 腾讯科技(北京)有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/35;G06F40/284 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 郭曼;王琦 |
地址: | 100080 北京市海淀区海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 推荐 标签 获取 方法 媒体 内容 装置 存储 介质 | ||
本申请公开了一种推荐标签获取方法,包括:获取多个样本内容中各个样本内容的标签数据和投放数据,获取与所述多个样本内容相关联的用户行为数据,所述各个样本内容的标签数据包括各个样本内容中包含的标签;针对所述标签数据中的每一个标签,确定该标签的质量评分,所述质量评分用于表征该标签的作为内容标签的可推荐度;以及将质量评分满足预定条件的至少一个标签作为推荐标签,形成推荐标签集合。本申请还公开了媒体内容推荐方法、相应的装置及存储介质。
技术领域
本申请涉及互联网技术领域,尤其涉及推荐标签获取方法、媒体内容推荐方法、装置及存储介质。
背景技术
随着互联网技术的发展,人们可以通过网络阅读各种类型的文本。标签(tag)是与文本相关性很强的关键字,它能够对文本内容进行简单描述和分类。在媒体内容推送系统中,媒体内容的tag提取工作,是后续文章召回和推荐的基础。准确地提取媒体内容的tag,提炼文本的核心点受到越来越多的关注。
发明内容
本申请实例提供了一种推荐标签获取方法,包括:
获取多个样本内容中各个样本内容的标签数据和投放数据,获取与所述多个样本内容相关联的用户行为数据,所述各个样本内容的标签数据包括各个样本内容中包含的标签;
针对所述标签数据中的每一个标签,执行如下处理:
根据包含该标签的各样本内容的投放数据,确定该标签的用户接受度;
根据与包含该标签的各样本内容相关联的所述用户行为数据,确定该标签的用户兴趣度参数;及
根据所述用户接受度及所述用户兴趣度参数,确定该标签的质量评分,所述质量评分用于表征该标签的作为内容标签的可推荐度;
以及
将质量评分满足预定条件的至少一个标签作为推荐标签,形成推荐标签集合。
可选地,其中,所述投放数据包括曝光数据和/或点击数据;
所述根据包含该标签的各样本内容的投放数据,确定该标签的用户接受度,包括:
获取包含该标签的各样本内容的曝光数据和/或点击数据;
根据包含该标签的各样本内容的所述曝光数据和/或所述点击数据,确定该标签的所述用户接受度。
可选地,其中,每一样本内容的标签数据包括:至少一个标签及其在该样本内容中的权重;
所述方法进一步包括:针对所述候选标签集合中的每一个标签,从包含该标签的各样本内容的标签数据中提取该标签在各样本内容中的权重;
其中,所述根据包含该标签的各样本内容的所述曝光数据和/或点击数据,确定该标签的用户接受度,包括:根据该标签在各样本内容中的所述权重、包含该标签的各样本内容的所述曝光数据和/或所述点击数据,确定所述用户接受度。
可选地,其中,采用以下公式(1)确定所述用户接受度:
其中,N为包含该标签的样本内容的个数,i为所述N个样本内容中的第i个内容,tagweighti为该标签在第i个内容中的权重,hit_muni为第i个内容的点击量,post_muni为第i个内容的曝光量。
可选地,其中,所确定的该标签的用户兴趣度参数包括该标签的点击量、该标签的订阅量和该标签的搜索量中的至少一项。
可选地,其中,所述确定该标签的质量评分包括:通过对该标签的点击量、该标签的订阅量和该标签的搜索量中的至少一项及所述用户接受度进行加权求和,得到所述质量评分。
可选地,所述方法进一步包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(北京)有限公司,未经腾讯科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710654487.9/2.html,转载请声明来源钻瓜专利网。