[发明专利]一种并行化的文本聚类方法有效
申请号: | 201710305214.3 | 申请日: | 2017-05-03 |
公开(公告)号: | CN106886613B | 公开(公告)日: | 2020-06-26 |
发明(设计)人: | 陆川;孙健;许强 | 申请(专利权)人: | 成都云数未来信息科学有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平 |
地址: | 610000 四川省成都市双流*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种并行化的文本聚类方法,将非结构化文本平均分发到各分布式节点上,再对各节点上的文本进行预处理,采用并行化的计算方式对预处理结果进行特征提取,获取处理后的文本特征向量;然后采用改进后的并行化聚类方法对上述文本特征向量进行聚类处理,增量式地获取多个文本簇;通过将聚类过程中的各个步骤并行化,在面对海量或高维数据时,提升了文本聚类的速度。 | ||
搜索关键词: | 一种 并行 文本 方法 | ||
【主权项】:
一种并行化的文本聚类方法,其特征在于,包括以下步骤:(1)、文本预处理将非结构化文本平均分发到各分布式节点上,对各节点上的文本进行预处理、分词、过滤停用词操作;(2)、提取文本特征向量采用并行化的计算方式对预处理后的文本进行特征提取,获取处理后的文本特征向量;(3)、对文本特征向量进行聚类采用改进后的并行化聚类方法对上述文本特征向量进行聚类,增量式地获取多个文本簇。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都云数未来信息科学有限公司,未经成都云数未来信息科学有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710305214.3/,转载请声明来源钻瓜专利网。