[发明专利]一种基于概念分解的多视图文本聚类方法、装置及设备有效

专利信息
申请号: 201910379773.8 申请日: 2019-05-08
公开(公告)号: CN110096596B 公开(公告)日: 2023-05-05
发明(设计)人: 李健强;周郭许;邱育宁 申请(专利权)人: 广东工业大学
主分类号: G06F16/35 分类号: G06F16/35
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 罗满
地址: 510060 广东省*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 概念 分解 视图 文本 方法 装置 设备
【说明书】:

发明公开了一种基于概念分解的多视图文本聚类方法、装置、设备以及计算机可读存储介质,包括:通过多个视角对待分类事件进行数据采集,得到所述待分类事件的文本多视图数据;利用预先构建的概念分解模型对所述文本多视图数据进行分解,得到所述文本多视图数据的一致表征矩阵;利用预设聚类算法对所述一致表征矩阵进行聚类,得到所述待分类事件的聚类结果。本发明所提供的方法、装置、设备以及计算机可读存储介质,利用概念分解模型引入了几何结构的特征图约束,最大限度地挖掘数据中隐含的深层信息,提高了多视图文本聚类的效果。

技术领域

本发明涉及聚类技术领域,特别是涉及一种基于概念分解的多视图文本聚类方法、装置、设备以及计算机可读存储介质。

背景技术

随着信息技术的不断发展,人们身边的事物都能以数据的形式被记录下来,因此大数据时代的到来使得我们生活中处处离不开数据。为了处理如此庞大的数据,人们需要一些工具对这些数据进行预处理,将数据中冗余的信息剔除以减少计算机的负荷和提升计算速度。矩阵分解是有效的数据处理工具之一,它能将高维的数据降维到低维空间中,同时能够防止有效信息丢失。

目前由于图约束理论被提出,在矩阵分解的模型中引入图约束,能够突破瓶颈从而获得更好的聚类效果。传统的单视图聚类只能依据属性是否相近而进行聚群,但是实际所收集到的数据可能会出现一些虚假错误的信息,从而干扰了聚类的效果。随着技术的成熟化,科研人员发现了一个全新的聚类新方法:多视图聚类(Multi-View Clustering,MVC),弥补了单视图聚类的不足。多视图聚类通过多个方面对同一事物进行数据采集,其关键是使得信息相互补充,能够解决单一视图可能出现虚假错误信息的现象。

在现有技术中图约束非负矩阵分解多视图聚类算法只对几何结构的数据图作局部约束,虽然此约束在聚类中取得良好的效果,但并没有最大限度地挖掘数据中隐含的深层信息,更进一步取得良好的效果。非负矩阵分解算法在非负约束下能够学习到局部表征,但由于只能允许局部表征作加法运算,因此无法明确地了解原始数据在降维后的空间中的性能效果,例如在再生希尔伯特空间(Reproducing Kernel Hilbert Space,RKHS)。对于已有的基于概念分解的多视图聚类,其仅对几何结构的数据图进行约束,虽然性能有所提升,但是忽略了特征之间的相似性。

综上所述可以看出,如何提高多视图文本聚类的效果,最大限度地挖掘数据中隐含的深层信息是目前有待解决的问题。

发明内容

本发明的目的是提供一种基于概念分解的多视图文本聚类方法、装置、设备以及计算机可读存储介质,以解决现有技术中的非负矩阵分解多视图聚类算法没有最大限度的挖掘数据中隐含的深度信息的问题。

为解决上述技术问题,本发明提供一种基于概念分解的多视图文本聚类方法,包括:通过多个视角对待分类事件进行数据采集,得到所述待分类事件的文本多视图数据;利用预先构建的概念分解模型对所述文本多视图数据进行分解,得到所述文本多视图数据的一致表征矩阵;利用预设聚类算法对所述一致表征矩阵进行聚类,得到所述待分类事件的聚类结果。

优选地,所述利用预先构建的概念分解模型对所述文本多视图数据进行分解,得到所述文本多视图数据的一致表征矩阵包括:

分别将所述文本多视图数据中每个视角所采集的文本视图数据输入至所述概念分解模型的目标函数内,得到每个文本视图数据的关联矩阵和表征矩阵;

对所述每个文本视图数据的关联矩阵分别进行迭代更新,得到所述每个文本视图数据更新后的关联矩阵;

对所述每个文本视图数据的表征矩阵分别进行迭代更新,得到所述每个文本视图数据更新后的表征矩阵;

联合所述每个文本视图数据更新后的表征矩阵,对所述文本多视图数据的一致表征矩阵进行更新,得到所述文本多视图数据更新后的一致表征矩阵。

优选地,所述概念分解模型的目标函数为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910379773.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top