[发明专利]文章聚类方法、装置、电子设备、存储介质在审
申请号: | 201811040361.3 | 申请日: | 2018-09-06 |
公开(公告)号: | CN110888978A | 公开(公告)日: | 2020-03-17 |
发明(设计)人: | 刘子丁 | 申请(专利权)人: | 北京京东金融科技控股有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 阚梓瑄;袁礼君 |
地址: | 100176 北京市北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文章 方法 装置 电子设备 存储 介质 | ||
1.一种文章聚类方法,其特征在于,包括:
向量化一待聚类文章获得待聚类文章的待聚类特征向量;
计算所述待聚类特征向量与子类中心向量的相似度,所述子类中心向量依据该子类中已聚类特征向量计算;
若所述相似度小于预设相似度阈值,则将所述待聚类特征向量所指示的待聚类文章归入该子类;以及
更新归入所述待聚类文章的子类中心向量。
2.如权利要求1所述的文章聚类方法,其特征在于,若所述相似度小于预设相似度阈值,则将所述待聚类特征向量所指示的待聚类文章归入该子类包括:
将所述待聚类特征向量所指示的待聚类文章归入相似度最小,且相似度小于预设相似度阈值的子类。
3.如权利要求2所述的文章聚类方法,其特征在于,若所述待聚类特征向量与各子类中心向量的最小相似度大于等于所述预设相似度阈值,则建立一新的子类,且该新的子类的子类中心向量为所述待聚类特征向量。
4.如权利要求1所述的文章聚类方法,其特征在于,还包括:
基于遗忘机制去除用于与待聚类特征向量计算相似度的子类中心向量关联的子类。
5.如权利要求4所述的文章聚类方法,其特征在于,所述基于遗忘机制去除用于与待聚类特征向量计算相似度的子类中心向量关联的子类包括:
去除最新更新时间距离当前时间大于等于预设时间阈值的子类中心向量关联的子类。
6.如权利要求4所述的文章聚类方法,其特征在于,所述基于遗忘机制去除用于与待聚类特征向量计算相似度的子类中心向量关联的子类包括:
去除热度小于等于预设热度阈值的子类,其中,子类的热度P=子类中文章的数量/(子类累积的时间的r次方),r为大于等于1.5小于等于2.0的常数。
7.如权利要求1至6任一项所述的文章聚类方法,其特征在于,所述预设相似度阈值基于聚类的召回率和准确率调整。
8.如权利要求1至6任一项所述的文章聚类方法,其特征在于,所述待聚类特征向量与子类中心向量的相似度为余弦相似度。
9.如权利要求1至6任一项所述的文章聚类方法,其特征在于,所述向量化一待聚类文章获得待聚类文章的待聚类特征向量包括:
利用特征哈希算法向量化一待聚类文章,所述待聚类特征向量为N维向量,N为大于0的正整数。
10.如权利要求9所述的文章聚类方法,其特征在于,所述子类中心向量也为N维向量,且所述子类中心向量每一维为该子类中已聚类特征向量对应维的平均值。
11.一种文章聚类装置,其特征在于,包括:
向量化模块,用于向量化一待聚类文章获得待聚类文章的待聚类特征向量;
相似度计算模块,用于计算所述待聚类特征向量与子类中心向量的相似度,所述子类中心向量依据该子类中已聚类特征向量计算;
分类模块,若所述相似度小于预设相似度阈值,则用于将所述待聚类特征向量所指示的待聚类文章归入该子类;以及
更新模块,用于更新归入所述待聚类文章的子类中心向量。
12.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储器,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如权利要求1至10任一项所述的步骤。
13.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至10任一项所述的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东金融科技控股有限公司,未经北京京东金融科技控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811040361.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种液态乳及其制备方法
- 下一篇:一种氧化钛的制备方法