[发明专利]基于图形处理单元的异构特征时序数据演化聚类方法有效

专利信息
申请号: 201510266719.4 申请日: 2015-05-23
公开(公告)号: CN104834746B 公开(公告)日: 2017-12-12
发明(设计)人: 黄晓辉;熊李艳;曾辉;王传云;谢昕;徐剑 申请(专利权)人: 华东交通大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南昌市平凡知识产权代理事务所36122 代理人: 姚伯川
地址: 330013 江*** 国省代码: 江西;36
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 图形 处理 单元 特征 时序 数据 演化 方法
【说明书】:

技术领域

发明涉及一种并行异构特征时序数据演化聚类方法,尤其涉及一种基于图形处理单元的异构特征时序数据演化聚类方法,属数据处理技术领域。

背景技术

在现实世界中,绝大部分数据都带有时间特征,如社会化媒体数据、股票数据、医疗数据、科学文献数据等。这些数据中的时间特征可以被用来发现事件的演化趋势、检测异常行为、预测事件发展等。时序数据演化聚类在现实应用中有许多潜在的需求,例如在社会化媒体数据中,大量用户发布、交流、传播和跟踪各种与社会、政治等相关的热点事件,这个过程实时反映了人们对正在传播事件的观点及看法。因此,对于政府部门来说,通过演化聚类方法可以从社会化媒体数据中挖掘出事件的起因、讨论的热度以及人们的观点,同时,随着事件的进一步发展,还可以挖掘出人们观点及讨论热度的变化。在这个过程中,政府可以实时地监控、引导舆情的变化。这对于维护社会稳定和国家网络信息安全来说是至关重要的。

近年来,随着信息技术和互联网技术快速发展,特别是移动互联网的迅猛发展,数据的获取变得越来越容易,数据规模也越来越大。这使得传统的时序数据演化聚类时间代价太高,不能适应现有的大规模时间数据的演化聚类。此外,由于现实应用的复杂性,这些应用产生的数据对象通常也包含多种类型的特征,例如社会化媒体数据中包含文本、图形、视频、标签、表情等特征。如何利用这些异构特征进行综合学习,获取数据集中簇结构的演化趋势也是时间数据演化聚类的一个难点。

现有的多视图数据聚类方法也能够处理异构特征数据的聚类问题。例如2009年,Chi等人通过加权融合图像特征和文本特征进行多视图数据聚类(Chi M,Zhang P,Zhao Y,et al.Web image retrieval reranking with multi-view clustering,www,2009)。但是,这种简单的对不同量纲的数据进行加权融合会使融合后的数据失去可解释性,而且找到一组合适的加权参数也是一项非常困难的事情。由于时序数据的特殊性(如时间的延续性),简单的把时间特征作为异构特征数据的一个视图进行聚类不能得到有效地演化聚类效果。

基于潜层狄利克雷主题模型(Latent Dirichlet Allocation),Wang和McCallum人提出了时间主题模型(Topic over Time,Wang X,McCallum A.Topics over time:a non-Markov continuous-time model of topical trends,ACM SIGKDD,2006)。该方法通过引入贝塔分布(Beta Distribution)来归一化每个话题在时间维度上的分布,利用话题在时间分布上的不同来区分在内容上相似的话题。该方法限制每个话题在时间上都必须服从贝塔分布,然而,现实应用中很多话题在时间上的演化并不服从贝塔分布。此外,时间主题模型只能利用文本和时间两种特征,现实数据中的其他特征信息并不能被有效利用,从而提高演化聚类的效果。

基于张量非负分解方法,Lin等人提出基于多张量非负分解方法(Metafac,(Y.Lin,J.Sun,P.Castro,R.Konuru,H.Sundaram,and A.Kelliher,“Metafac:community discovery via relational hypergraph factorization,ACM SIGKDD,2009)。该方法利用多个张量来表示多种类型的数据特征,然后同时对这些张量进行非负分解来获得每个对象在每个簇中的隶属度和每个簇中特征的分布。然而该方法不能有效地利用时间特征来发现簇(或话题)的热点趋势变化。同时,当数据量较大时,张量非负分解的速度非常慢,难以满足现实应用的要求。此外,2014年,liu等人也提出了基于多矩阵非负分解多视图聚类算法(Liu J,Wang C,Gao J,et al.Multi-view clustering via joint nonnegative matrix factorization,SDM,2013),但是该方法不能够直接有效的处理时间特征并发现簇在时间维度上的演化趋势。

发明内容

本发明解决的技术问题是:提出一种基于图形处理单元的异构特征时序数据演化聚类方法,克服现有技术不能够有效地利用数据中的异构特征进行演化聚类和由于数据量大而导致的计算速度慢的问题。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东交通大学,未经华东交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510266719.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top