[发明专利]一种文档聚类方法及设备有效
申请号: | 201711423310.4 | 申请日: | 2017-12-25 |
公开(公告)号: | CN110019806B | 公开(公告)日: | 2021-08-06 |
发明(设计)人: | 符晶晶;盛家波 | 申请(专利权)人: | 中移动信息技术有限公司;中国移动通信集团有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 102209 北京市昌平区未来*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 方法 设备 | ||
本发明公开了一种文档聚类方法及设备,所述方法包括:确定待聚类的文档中的每篇文档的备选词集合包括的词的重要性值,所述备选词集合包括对所述每篇文档进行分词处理后获得的词,所述重要性值用于表示词与所述词所在的文档的关联程度;确定所述每篇文档的备选词集合中重要性值位于预设范围内的至少一个词;将所述至少一个词组成所述每篇文档的多元组,所述多元组用于完成对所述每篇文档的聚类;确定待聚类的文档中的所有文档的多元组之间的相似度,根据相似度将待聚类的文档中的所有文档聚合为至少一个簇,其中,同一个簇中包括的文档的多元组之间的相似度位于设定范围内。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文档聚类方法及设备。
背景技术
随着自然语言处理技术(Natural Language Processing,NLP)的不断发展及文档数量的快速增长,给文档查询带来了较大的工作量。为了方便用户查找文档,对文档进行聚类成为人们日益关注的问题。其中,文档聚类是根据文档中包括的词的种类、出现的频率等,将相似的文档聚为同一类。
目前,对文档进行聚类的过程主要包括:对文档进行分词处理,根据分词处理得到的词,使用如K-means算法等基于距离的聚类算法,或使用如潜在狄利克雷分配模型(Latent Dirichlet Allocation,LDA)等基于词袋(bag of words)的聚类方法,对文档进行聚类。然而,对文档进行分词处理后,得到的词较多,分词处理后得到的词通常还包括与文档主题无关的词,因此,直接使用分词处理得到的词进行文档聚类,会导致文档聚类的结果不准确。
所以,现有技术中,存在文档聚类不准确的技术问题。
发明内容
本发明实施例提供一种文档聚类方法及设备,用于解决现有技术中,存在文档聚类不准确的技术问题。
为此,本发明实施例提供的技术方案如下:
第一方面,提供一种文档聚类方法,包括:
确定待聚类的文档中的每篇文档的备选词集合包括的词的重要性值,所述备选词集合包括对所述每篇文档进行分词处理后获得的词,所述重要性值用于表示词与所述词所在的文档的关联程度;
确定所述每篇文档的备选词集合中重要性值位于预设范围内的至少一个词;
将所述至少一个词组成所述每篇文档的多元组,所述多元组用于完成对所述每篇文档的聚类;
确定待聚类的文档中的所有文档的多元组之间的相似度,根据相似度将待聚类的文档中的所有文档聚合为至少一个簇,其中,同一个簇中包括的文档的多元组之间的相似度位于设定范围内。
可选的,所述方法还包括:
获取所述每篇文档的标题;
对所述每篇文档的标题进行分词处理;
根据所述每篇文档的分词处理结果得到所述每篇文档的备选词集合。
可选的,根据所述每篇文档的分词处理结果得到所述每篇文档的备选词集合,包括:
将所述每篇文档的分词处理结果进行词性过滤,获得所述每篇文档中的词性为名词和/或动词的目标词;
将所述每篇文档的目标词组成所述每篇文档的备选词集合。
可选的,所述确定待聚类的文档中的所有文档的多元组之间的相似度,包括:
获取所述每篇文档的多元组的词向量模型;
确定待聚类的文档中的所有文档的多元组的词向量模型之间的相似度。
可选的,所述获取每篇文档的多元组的词向量模型,包括:
获取所述每篇文档的多元组中的每个词的词向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移动信息技术有限公司;中国移动通信集团有限公司,未经中移动信息技术有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711423310.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文章主题挖掘方法和装置及计算机可读存储介质
- 下一篇:一种商品分类方法及装置