[发明专利]一种多层次文本聚类方法和装置在审
申请号: | 201910297074.9 | 申请日: | 2019-04-15 |
公开(公告)号: | CN110196907A | 公开(公告)日: | 2019-09-03 |
发明(设计)人: | 席永轲;白婷婷;王宇辰;白振宇;曹帅;张孝苗;孙玉强;刘昕 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例提供了一种多层次文本聚类方法和装置,该方法可以在多个层次对文本数据进行不同粒度的聚类。对所获取的文本数据进行数据预处理操作后根据范化数据的不同特征以及在数据表中所属的不同类别,将规范化后数据分为全部数据即最广义层次、子级分类层次、自定义分类层次等是三个不同层次,然后采用Word2vec进行文本词向量的训练,基于文本词向量训练结果得到一条文本数据的二维坐标作为一个数据节点的坐标,通过计算所有数据节点的相对距离,并根据不同的数据量,动态更新算法截断距离,最终通过计算每个数据节点的局部密度与相对距离确,保存聚类结果并生成数据可视化图聚类中心,并根据各个聚类中心,将不同数据聚为一类。 | ||
搜索关键词: | 数据节点 文本数据 方法和装置 聚类中心 文本聚类 文本词 数据预处理操作 动态更新 二维坐标 聚类结果 生成数据 向量训练 可视化 数据量 自定义 分类 截断 聚类 向量 子级 算法 规范化 保存 | ||
【主权项】:
1.一种多层次文本聚类方法和装置,包括以下步骤:A.基于所获取的原始数据进行数据预处理操作,主要包括数据分词、去停用词、数据规范化等操作。B.根据规范化数据的不同特征以及在数据表中所属的不同类别,使用不同的类别判别方式对数据进行划分,可将规范化后数据分为全部数据即最广义层次、子级分类层次、自定义分类层次等是三个不同层次,并根据不同的类别层次执行不同聚类操作。C.基于不同层次的文本数据,采用Word2vec进行文本词向量的训练,将文本内容处理为二维并在空间标识。D.基于词向量训练结果,将每条文本数据的关键词抽取结果与词向量结合,将关键词对应的词向量坐标求和,得到一条文本数据的二维坐标作为一个数据节点的坐标。E.通过计算所有数据节点的相对距离,并根据不同的数据量,动态更新算法截断距离。然后通过计算每个数据节点的局部密度与相对距离确定各个聚类中心,并根据各个聚类中心,将不同数据聚为一类,保存聚类结果并生成数据可视化图。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910297074.9/,转载请声明来源钻瓜专利网。