[发明专利]一种多层次文本聚类方法和装置在审
申请号: | 201910297074.9 | 申请日: | 2019-04-15 |
公开(公告)号: | CN110196907A | 公开(公告)日: | 2019-09-03 |
发明(设计)人: | 席永轲;白婷婷;王宇辰;白振宇;曹帅;张孝苗;孙玉强;刘昕 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据节点 文本数据 方法和装置 聚类中心 文本聚类 文本词 数据预处理操作 动态更新 二维坐标 聚类结果 生成数据 向量训练 可视化 数据量 自定义 分类 截断 聚类 向量 子级 算法 规范化 保存 | ||
1.一种多层次文本聚类方法和装置,包括以下步骤:
A.基于所获取的原始数据进行数据预处理操作,主要包括数据分词、去停用词、数据规范化等操作。
B.根据规范化数据的不同特征以及在数据表中所属的不同类别,使用不同的类别判别方式对数据进行划分,可将规范化后数据分为全部数据即最广义层次、子级分类层次、自定义分类层次等是三个不同层次,并根据不同的类别层次执行不同聚类操作。
C.基于不同层次的文本数据,采用Word2vec进行文本词向量的训练,将文本内容处理为二维并在空间标识。
D.基于词向量训练结果,将每条文本数据的关键词抽取结果与词向量结合,将关键词对应的词向量坐标求和,得到一条文本数据的二维坐标作为一个数据节点的坐标。
E.通过计算所有数据节点的相对距离,并根据不同的数据量,动态更新算法截断距离。然后通过计算每个数据节点的局部密度与相对距离确定各个聚类中心,并根据各个聚类中心,将不同数据聚为一类,保存聚类结果并生成数据可视化图。
2.根据权利要求1所述的一种多层次文本聚类方法和装置,其特征在于,所述的步骤A中,数据分词是把连续的汉字序列划分成一系列单独的词语,之后将词语作为文本数据的基本单位;去停用词就是把分词结果中的一些虚词和禁用词去除;数据规范化是指将数据已有的类别进行标记,便于后期高效多层次聚类。
3.根据权利要求1所述的一种多层次文本聚类方法和装置,其特征在于,所述的步骤B中,根据不同的数据形式,使用不同的方式对数据进行划分,共有以下几种形式:
i.将所有数据归为一个层次,即将所有数据进行最广义聚类。
ii.根据规范化后数据所属的不同类别,可以根据不同类别层次将数据划分为不同类别,并根据不同类别进行聚类。
iii.若想获取自定义类别数据,首先自定义类别标签关键词,然后对所获取规范化数据进行遍历,并通过类别关键词对每一条数据进行类别相似度赋值权重,最终通过权重大小获取到自定义类别数据。
4.根据权利要求1所述的一种多层次文本聚类方法和装置,其特征在于,所述的步骤C中,Word2vec利用深度学习的思想,通过训练,把对文本内容的处理简化为K维向量空间中的向量运算,最终通过降维算法将K维向量降为2维,从而可以用向量空间上的距离来表示语义上的相似度。
5.根据权利要求1所述的一种多层次文本聚类方法和装置,其特征在于,所述的步骤E中,通过计算所有数据节点的平均距离并乘以对应权重,从而根据不同数据集的大小动态更新算法截断距离。局部密度描述了一个数据节点周围数据的聚集程度。相对距离描述了一个数据节点与其它具有较大局部密度的数据节点的距离。若一个节点的局部密度值与相对距离值都较大,说明它本身周围有较多数据节点,且距离另一个周围有较多数据节点的数据节点距离较远,则认为其是一个聚类中心。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910297074.9/1.html,转载请声明来源钻瓜专利网。