[发明专利]一种文本数据的聚类方法、装置和系统有效

申请号：	201710307520.0	申请日：	2017-05-04
公开（公告）号：	CN107273412B	公开（公告）日：	2019-09-27
发明（设计）人：	孙辛博;王洪俊;李渝勤	申请（专利权）人：	北京拓尔思信息技术股份有限公司
主分类号：	G06F16/35	分类号：	G06F16/35
代理公司：	北京天健君律专利代理事务所(普通合伙) 11461	代理人：	罗延红;黄海艳
地址：	100088 北京市海淀区知***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明的实施例提供了一种文本数据的聚类方法、装置和系统。其中，所述方法包括：子节点接收主节点针对海量文本数据进行拆分得到的待聚类的文本子集合；所述子节点将所述文本子集合中的每个文本分别与所有子节点的文本子集合中的每个文本进行文本相似度的比对，得到文本对的相似关系集合；所述子节点将所述相似关系集合发送至所述主节点，以使得所述主节点根据所有子节点发送的所述相似关系集合对所述海量文本数据进行聚类，得到所述海量文本数据的聚类结果。本发明通过引入spark分布式框架，对海量文本数据进行分布式聚类，从而获得对海量文本数据进行聚类的能力。
搜索关键词：	一种文本数据方法装置系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种文本数据的聚类方法，其特征在于，所述方法包括：子节点接收主节点针对海量文本数据进行拆分得到的待聚类的文本子集合；所述子节点将所述文本子集合中的每个文本分别与所述文本子集合中的其他文本进行文本相似度的比对，并且针对所述待聚类的文本子集合中的每个文本，所述子节点分别向所有其他子节点发送文本相似度的比对请求，使得其他每个子节点将所述比对请求中包含的比对文本分别与自身的文本子集合中的每个文本进行比对，以得到文本对的相似关系集合；所述子节点将所述相似关系集合发送至所述主节点，以使得所述主节点根据所有子节点发送的所述相似关系集合对所述海量文本数据进行聚类，得到所述海量文本数据的聚类结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京拓尔思信息技术股份有限公司，未经北京拓尔思信息技术股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710307520.0/，转载请声明来源钻瓜专利网。

上一篇：业务操作与数据库操作数据的关联方法及设备
下一篇：中间表的创建方法、查询方法及相关装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种文本数据的聚类方法、装置和系统有效

专利文献下载