[发明专利]基于Single-pass的聚类方法、系统、装置、存储介质有效
申请号: | 202011563949.4 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112579780B | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 代少兵 | 申请(专利权)人: | 青牛智胜(深圳)科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 深圳市科冠知识产权代理有限公司 44355 | 代理人: | 蒋芳霞 |
地址: | 518000 广东省深圳市南山区粤海街道高*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 single pass 方法 系统 装置 存储 介质 | ||
本发明涉及基于Single‑pass的聚类方法、系统、装置、存储介质,所提供方法具体是:设置新一轮循环中初次聚类的相似度;进而,根据Single‑pass以及初次聚类的相似度,进行聚类;进而,若有未被聚类的:根据上一次聚类的相似度以及预设的降值规则,获取相似度;将上一次聚类所得的短文本主题导入新一次聚类中,根据相似度以及Single‑pass,对上一次未被聚类的进行聚类;进而,判断获取相似度的步骤的执行次数是否已达到预设的总次数;进而,若未达到,跳转到获取相似度的步骤;若已达到,判断是否满足进行新一轮循环的条件;若满足,取倒数第二次聚类的相似度为最佳相似度;若不满足,跳转到设置相似度的步骤。同时解决了阈值难以确定以及长尾的问题。
技术领域
本发明涉及数据处理技术领域,更具体地说,涉及基于Single-pass的聚类方法、系统、装置、存储介质。
背景技术
提供信息化服务的过程中,是否可以快速、准确地处理、分析网络文本信息尤为重要;其中,短文本聚类分析是常见的分析场景,通过聚类可以快速获取短文本的主题;由于聚类结果有较好的可解释性,因此,常会选用Single-pass或层次聚类。
然而,仅使用Single-pass进行聚类,容易出现长尾问题,大量句子未被聚类;仅使用层次聚类,一是难以确定合适的阈值,二是不具备有效的指标用于评估阈值选择的合理性。
因此,仍需对聚类方法做改进,以解决上述问题。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供基于Single-pass的聚类方法、基于Single-pass的聚类系统、基于Single-pass的聚类装置,以及计算机可读存储介质。
本发明解决其技术问题所采用的技术方案是:
第一,提供了一种基于Single-pass的聚类方法,其中,包括如下步骤:
设置新一轮循环中初次聚类的相似度;其中,新一轮循环中初次聚类的相似度、上一轮循环中初次聚类的相似度不相等;
根据Single-pass以及新一轮循环中初次聚类的相似度,对全部短文本进行聚类;
若有未被聚类的短文本:根据上一次聚类的相似度以及预设的降值规则,获取新一次聚类的相似度;将上一次聚类所得的短文本主题导入新一次聚类中,根据新一次聚类的相似度以及Single-pass,对上一次未被聚类的全部短文本进行聚类;
判断本轮循环中获取新一次聚类的相似度的步骤的执行次数是否已达到预设的总次数,其中,预设的总次数不小于2;
若未达到,跳转到获取新一次聚类的相似度的步骤;
若已达到,判断是否满足进行新一轮循环的条件;其中,进行新一轮循环的条件包括同时满足:本轮循环中,最后一次聚类的最后一类为该次聚类中首次设立的新类、倒数第二次聚类中倒数第二次设立的新类与最后一次聚类的最后一类不同、最后一次聚类的最后一类所含短文本数量为倒数第二次聚类中倒数第二次设立的新类所含短文本数量的N倍,其中,N≥2;
若满足条件,取倒数第二次聚类的相似度为最佳相似度;
若不满足条件,跳转到设置新一轮循环中初次聚类的相似度的步骤。
第二,提供了基于Single-pass的聚类系统,基于上述的基于Single-pass的聚类方法,其中,所述系统包括:
设置单元,用于设置新一轮循环中初次聚类的相似度;其中,新一轮循环中初次聚类的相似度、上一轮循环中初次聚类的相似度不相等;
聚类单元,用于根据Single-pass以及新一轮循环中初次聚类的相似度,对全部短文本进行聚类;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青牛智胜(深圳)科技有限公司,未经青牛智胜(深圳)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011563949.4/2.html,转载请声明来源钻瓜专利网。