[发明专利]一种基于谱分解的自适应文档聚类方法及系统在审
申请号: | 202011103403.0 | 申请日: | 2020-10-15 |
公开(公告)号: | CN112347246A | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 吕晓宝;王元兵;王海荣;饶淑梅 | 申请(专利权)人: | 中科曙光南京研究院有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/253;G06F40/284;G06F40/289 |
代理公司: | 南京泰普专利代理事务所(普通合伙) 32360 | 代理人: | 窦贤宇 |
地址: | 211102 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种基于谱分解的自适应文档聚类方法及实现该方法的系统,实现将相似的文档归为一类,并将不相似的文档划分成不同的类别的目的,同时本发明提出的对应方法对于文本数据量大的情况拥有较好的自适应能力。其中所述方法,首先将文本通过分词,构建词表,去除低频词,合并近义词,根据词表构建文档向量,并进一步建立文档相似矩阵;根据相似矩阵的稀疏化处理,及拉普拉斯的计算,获得特征值和特征向量,并以此作为聚类数目的划分依据,在确定聚类中心后利用循环迭代的方式,从而获得文档聚类的结果。 | ||
搜索关键词: | 一种 基于 分解 自适应 文档 方法 系统 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科曙光南京研究院有限公司,未经中科曙光南京研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202011103403.0/,转载请声明来源钻瓜专利网。