[发明专利]内容聚类方法及装置有效
申请号: | 201810226492.4 | 申请日: | 2018-03-19 |
公开(公告)号: | CN110287977B | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 刘荣 | 申请(专利权)人: | 阿里巴巴(中国)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 李晓庆 |
地址: | 310052 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 内容 方法 装置 | ||
本公开涉及内容聚类方法及装置。该方法包括:获取多组用户行为数据;对于每一组用户行为数据,分别确定所述用户行为数据对应的内容序列;根据所述内容序列中内容之间的位置关系,确定内容之间的相关性;根据内容之间的相关性,采用标签传播算法,确定各个内容所属的类别。本公开能够自动进行内容聚类,无需人工进行内容聚类,节省了人力,易于对大量的内容进行聚类,并能更好地挖掘内容之间的相关性,提高内容聚类的准确性。
技术领域
本公开涉及信息技术领域,尤其涉及一种内容聚类方法及装置。
背景技术
相关技术中,通过人工对视频等内容进行聚类,得到各个类别的内容。这种人工进行内容聚类的方式需要耗费大量人力,且所得到的各个类别中内容之间的相似度难以得到保证。
发明内容
有鉴于此,本公开提出了一种内容聚类方法及装置。
根据本公开的一方面,提供了一种内容聚类方法,包括:
获取多组用户行为数据;
对于每一组用户行为数据,分别确定所述用户行为数据对应的内容序列;
根据所述内容序列中内容之间的位置关系,确定内容之间的相关性;
根据内容之间的相关性,采用标签传播算法,确定各个内容所属的类别。
在一种可能的实现方式中,根据所述内容序列中内容之间的位置关系,确定内容之间的相关性,包括:
将所述内容序列中相邻的内容之间的相关性确定为相关。
在一种可能的实现方式中,根据内容之间的相关性,采用标签传播算法,确定各个内容所属的类别,包括:
建立无向图,并将各个内容分别作为所述无向图中的节点;
若两个内容之间的相关性为相关,则建立该两个内容对应的节点之间的边;
分别为每个节点分配标签;
对于任意一个节点,根据该节点的邻居节点的标签,更新该节点的标签,其中,该节点的邻居节点表示与该节点相连的节点;
当各个节点的标签稳定时,根据各个节点的标签,确定各个节点对应的内容所属的类别。
在一种可能的实现方式中,对于任意一个节点,根据该节点的邻居节点的标签,更新该节点的标签,包括:
对于任意一个节点,根据该节点的邻居节点的标签中出现次数最多的标签,更新该节点的标签。
在一种可能的实现方式中,在更新该节点的标签之前,所述方法还包括:
对于相关性为相关的两个内容,根据该两个内容在各个内容序列中相邻出现的次数,以及该两个内容在各个内容序列中分别出现的次数,确定该两个内容之间的相似度。
在一种可能的实现方式中,对于任意一个节点,根据该节点的邻居节点的标签,更新该节点的标签,包括:
根据相关性为相关的两个内容之间的相似度,确定该两个内容对应的节点之间的边的权重;
对于任意一个节点,根据该节点的邻居节点的标签,以及该节点与邻居节点之间的边的权重,更新该节点的标签。
在一种可能的实现方式中,对于任意一个节点,根据该节点的邻居节点的标签,以及该节点与邻居节点之间的边的权重,更新该节点的标签,包括:
对于任意一个节点,将该节点的邻居节点的标签分别确定为候选标签;
确定该节点的邻居节点中各个候选标签对应的邻居节点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴(中国)有限公司,未经阿里巴巴(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810226492.4/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法