[发明专利]内容聚类方法及装置在审

申请号：	201810190779.6	申请日：	2018-03-08
公开（公告）号：	CN110309188A	公开（公告）日：	2019-10-08
发明（设计）人：	刘荣	申请（专利权）人：	优酷网络技术（北京）有限公司
主分类号：	G06F16/2458	分类号：	G06F16/2458;G06F16/28;G06F16/735
代理公司：	北京林达刘知识产权代理事务所(普通合伙) 11277	代理人：	刘新宇
地址：	100080 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	内容聚类内容序列向量行为数据相似度组用户聚类用户行为数据长尾效应距离接近输出内容相邻内容挖掘保证
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及内容聚类方法及装置。该方法包括：获取多组用户行为数据；分别确定每组用户行为数据对应的内容序列；将内容序列输入第一模型中，输出内容序列中的各个内容的向量，其中，第一模型用于使内容序列中相邻内容的向量之间的距离接近；根据内容的向量，对内容进行聚类，确定各个内容所属的类别。本公开能够自动进行内容聚类，无需人工进行内容聚类，节省了人力，易于对大量的内容进行聚类，并能更好地挖掘内容之间的相似度，保证同一类别的内容之间具有高相似度，另外，基于用户行为数据对应的内容序列进行内容聚类，对于长尾效应的曲线尾端的内容仍然能够挖掘到与其他内容之间的相似性，从而能够进一步提高内容聚类的准确性。

技术领域

本公开涉及信息技术领域，尤其涉及一种内容聚类方法及装置。

背景技术

相关技术中，通过人工对视频等内容进行聚类，得到各个类别的内容。这种人工进行内容聚类的方式需要耗费大量人力，且所得到的各个类别中内容之间的相似度难以得到保证。

发明内容

有鉴于此，本公开提出了一种内容聚类方法及装置。

根据本公开的一方面，提供了一种内容聚类方法，包括：

获取多组用户行为数据；

对于每一组用户行为数据，分别确定所述用户行为数据对应的内容序列；

将所述内容序列输入第一模型中，输出所述内容序列中的各个内容的向量，其中，所述第一模型用于使内容序列中相邻内容的向量之间的距离接近；

根据内容的向量，对内容进行聚类，确定各个内容所属的类别。

在一种可能的实现方式中，在将所述内容序列输入第一模型中之前，所述方法还包括：