[发明专利]基于人工智能的标签聚合方法及装置、存储介质在审
申请号: | 201911356405.8 | 申请日: | 2019-12-25 |
公开(公告)号: | CN111126491A | 公开(公告)日: | 2020-05-08 |
发明(设计)人: | 缪畅宇 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/9535 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;杜维 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工智能 标签 聚合 方法 装置 存储 介质 | ||
本公开涉及一种基于人工智能的标签聚合方法及装置、存储介质。在本公开的方案中,采用用于获取内容源的标签的概率的神经网络,获取多个第一内容源中每个第一内容源对应的一个或多个标签的概率;获取所述每个第一内容源对应的一个或多个标签的概率中概率最大的第一标签和第二标签;获取所述第一标签和所述第二标签的聚合度;以及若所述第一标签和所述第二标签的聚合度大于第一设定阈值,将所述第一标签和所述第二标签进行聚合,得到第三标签。采用本公开的方案,通过对多个内容源对应的两个标签的聚合度大于设定阈值的两个标签进行聚合,实现了标签的聚合,可以使得内容源的标签体系更加完善、准确。
技术领域
本公开涉及人工智能技术领域,尤其涉及一种基于人工智能的标签聚合方法及装置、存储介质。
背景技术
标签(tag)对于第一内容源来说非常重要,比如视频标签、文章标签、图片标签、音乐标签等。可以通过相关联的第一内容源自动挖掘标签,也可以通过人工标注标签。
在很多场景下,由于技术和人力的限制,第一内容源的标签都只有一个。比如某个视频要么属于“搞笑”,要么属于“美食”;某篇新闻要么属于“政治”,要么属于“国内”。然而实际上,由于标签的制定是比较复杂的,所以这些标签并不是彼此独立的关系,比如某个视频,可以既属于“搞笑”,又属于“美食”,新闻可以既属于“国内”,又属于“军事”。所以如何将这些标签进行聚合,使得第一内容源对应的标签更准确,是一个重要问题。
例如,假如我们发现“搞笑”和“美食”可以组合成一个新标签“搞笑#美食”用来表示某些视频,那么我们便可以将“搞笑#美食”这个标签加入到我们新的标签体系里。那些只有搞笑或者只有美食的视频的标签不变,那些既搞笑又跟美食相关的视频,就可以打上“搞笑#美食”的标签。
但目前还没有关于标签聚合的解决方案。
发明内容
本公开提供了一种基于人工智能的标签聚合的方案。
第一方面,提供了一种基于人工智能的标签聚合方法,包括:
采用用于获取内容源的标签的概率的神经网络,获取多个第一内容源中每个第一内容源对应的一个或多个标签的概率;
获取所述每个第一内容源对应的一个或多个标签的概率中概率最大的第一标签和第二标签;
获取所述第一标签和所述第二标签的聚合度;
若所述第一标签和所述第二标签的聚合度大于第一设定阈值,将所述第一标签和所述第二标签进行聚合,得到第三标签。
在一个实现中,所述获取所述第一标签和所述第二标签的聚合度,包括:
获取所述多个第一内容源中对应所述第一标签和所述第二标签的第一内容源的第一数量,以及所述多个第一内容源中对应所述第一标签的第一内容源的第二数量,以及所述多个第一内容源中对应所述第二标签的第一内容源的第三数量;
根据所述第一数量、所述第二数量和所述第三数量,确定所述第一标签和所述第二标签的聚合度。
在又一个实现中,所述方法还包括:
将所述第三标签更新到第一内容源的标签集合。
在又一个实现中,所述方法还包括:
采用所述第三标签对所述多个第一内容源进行标注。
在又一个实现中,所述方法还包括:
采用用于获取内容源的标签的概率的神经网络,获取多个第二内容源中每个第二内容源对应的一个或多个标签的概率;
获取所述每个第二内容源对应的一个或多个标签的概率中概率最大的第三标签和第四标签;
获取所述第三标签和所述第四标签的聚合度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911356405.8/2.html,转载请声明来源钻瓜专利网。