[发明专利]一种多层次文本聚类方法和装置在审

专利信息
申请号: 201910297074.9 申请日: 2019-04-15
公开(公告)号: CN110196907A 公开(公告)日: 2019-09-03
发明(设计)人: 席永轲;白婷婷;王宇辰;白振宇;曹帅;张孝苗;孙玉强;刘昕 申请(专利权)人: 中国石油大学(华东)
主分类号: G06F16/35 分类号: G06F16/35;G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 266580 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据节点 文本数据 方法和装置 聚类中心 文本聚类 文本词 数据预处理操作 动态更新 二维坐标 聚类结果 生成数据 向量训练 可视化 数据量 自定义 分类 截断 聚类 向量 子级 算法 规范化 保存
【说明书】:

发明实施例提供了一种多层次文本聚类方法和装置,该方法可以在多个层次对文本数据进行不同粒度的聚类。对所获取的文本数据进行数据预处理操作后根据范化数据的不同特征以及在数据表中所属的不同类别,将规范化后数据分为全部数据即最广义层次、子级分类层次、自定义分类层次等是三个不同层次,然后采用Word2vec进行文本词向量的训练,基于文本词向量训练结果得到一条文本数据的二维坐标作为一个数据节点的坐标,通过计算所有数据节点的相对距离,并根据不同的数据量,动态更新算法截断距离,最终通过计算每个数据节点的局部密度与相对距离确,保存聚类结果并生成数据可视化图聚类中心,并根据各个聚类中心,将不同数据聚为一类。

技术领域

本发明涉及到一种快速文本聚类方法,特别涉及一种多层次文本聚类方法和装置。

背景技术

随着时代的进步和科技的发展,互联网上的信息非常丰富,成为全球最大的分布式信息库。目前,绝大多数的信息都表现为文本形式,如何在大量的文本中提取用户感兴趣的、潜在有用的信息并且能够针对不同层次、不同类别的信息进行分类处理是对于用户决策有重要的参考价值。

文本聚类的目标是将文档集合划分为若干类,并使得同一类中的文档内容相似度尽可能大,而不同类间的文档内容相似度尽可能小。文本聚类是在传统的聚类分析的基础上发展而来的,文本数据大多为非结构化或半结构化数据,这使得基于结构化数据的聚类算法不适用于文本聚类。

文本聚类方法的研究已逐渐成为研究热点。其中涌现出许多文本聚类方法,比如通过 TF-IDF表示文档,将WordNet的概念出现在文档集合中,通过特征提取算法和本体集合聚类算法提高文本的聚类效果;利用多个领域本体将用关键词表示的文本特征向量表示为与之匹配的概念向量集,基于语义关系计算相似度的凝聚层次聚类,通过语义关系相似度进行聚类,可以使聚类结果更加精确,但没有进行层次划分,无法对语义进行多层次聚类;利用维基百科的目录结构和概念知识,以及WordNet本体库中的词汇关系,使用层次聚类方法对短文本进行聚类分析,此类方法从文本层次出发,可对不同文本进行聚类,但只是针对短文本进行聚类分析,若文本数据过大,则计算效率较低;中文网页搜索结果后缀树聚类,通过本体中概念之间的上下位等关系,将聚簇的标签从文本表示提升至语义表达的高度,但构建后缀树的过程比较繁琐,时间复杂度较高。

综上所述,此一类的机器学习与数据分析方法,都无法从多层次对文本数据进行不同粒度的快速高效聚类,随着网络的不断发展,互联网上的信息越来越丰富,更多的文本数据已经不单单仅限于一个层次,对一个层次的文本数据进行聚类已不能满足人们对知识的需要。因此,为了更加精确发现不同层次语料数据所表征的不同层次的问题,我们提出了一种多层次文本聚类方法。

发明内容

基于已经获取到的文本数据,经过数据预处理及文本数据词向量训练后,基于文本语义信息针对不同规模、不同层次的数据,使用基于多层次文本聚类方法,自动挑选聚类中心,基于聚类中心将剩余数据按照语义相似度进行聚类,实现不同粒度、不同层次的数据聚类。针对文本数据应用该方法,实现整体数据多层次分类;针对文本数据的类型、主题等需求分别进行进一步细化类别划分,发现数据间细微的语义差距,快速准确地发现每一类数据所代表问题。

本发明所采用的技术方案如下:

一种多层次文本聚类方法和装置,包括以下步骤:

A.基于所获取的原始数据进行数据预处理操作,主要包括数据分词、去停用词、数据规范化等操作。

B.根据规范化数据的不同特征以及在数据表中所属的不同类别,使用不同的类别判别方式对数据进行划分,可将规范化后数据分为全部数据即最广义层次、子级分类层次、自定义分类层次等是三个不同层次,并根据不同的类别层次执行不同聚类操作。

C.基于不同层次的文本数据,采用Word2vec进行文本词向量的训练,将文本内容处理为二维并在空间标识。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910297074.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top