[发明专利]基于时间序列的话题发展聚类分析系统和方法有效
申请号: | 201710071763.9 | 申请日: | 2017-02-09 |
公开(公告)号: | CN108415910B | 公开(公告)日: | 2021-03-05 |
发明(设计)人: | 殷复莲;张贝贝;刘晓薇;苏沛;王颜颜;白雪松 | 申请(专利权)人: | 中国传媒大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/9536;G06Q50/00 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 陈英俊;杨桦 |
地址: | 100024 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 时间 序列 话题 发展 聚类分析 系统 方法 | ||
本发明提供一种基于时间序列的话题发展聚类分析系统和方法,方法包括:采集话题形成累计阅读量时间序列;对上述时间序列进行前向差分得到话题热度时间序列;判断话题是否处于衰退期;若不处于衰退期继续话题采集;若处于衰退期,分别计算各话题间的S‑Euc和S‑DTW,对所有话题进行聚类。系统包括:数据采集部;数据处理部,对累计阅读量时间序列进行前向差分处理,判断话题是否处于衰退期,将不处于衰退期的话题存储到第一话题存储库,将处于衰退期的话题存储到第二话题存储库;时间序列距离计算部,分别计算各话题间的S‑Euc和S‑DTW;话题聚类部,对所有话题进行聚类。上述系统和方法精确度高、聚类效果好。
技术领域
本发明涉及舆情监控分析技术领域,更为具体地,涉及一种基于时间序列的话题发展聚类分析系统和方法。
背景技术
当前社交网络新媒体迅猛发展,搜索引擎、社交网络等得到大量广泛使用,各种各样的信息以惊人的速度在全球范围内传播,瞬息万变的话题雨后春笋般在互联网上层出不穷,深刻地影响着人们的生活和社会的方方面面。这些话题随着时间不断变化,形成了典型的时间序列数据。时间序列的聚类算法是分析预测互联网热点话题热度随时间变化趋势的重要过程。
聚类分析,就是把对象按照性质上的亲疏程度分成多个类或簇,使得类或簇内的数据相似度最大化,类或簇间的数据相似度最小化,目前聚类分析已成功应用到信息检索、数据挖掘等多个领域。现有时间序列聚类研究中时间序列距离多用闵科夫斯基距离、动态时间弯曲距离、最长公共子序列和编辑距离等等。其中,动态时间弯曲距离支持时间轴上的形变,故常用在不等长时间序列距离度量上。当前热点话题时间序列聚类算法应用较多的有K-means、FCM(模糊C均值)、层次聚类和基于基础算法进行的各种改进算法如K_SC(K-spectral centroid)、WKSC(Wavelet-based K_SC)等。但是,这些聚类算法所用数据源均以“天”为单位,时效性不强。
欧式距离(Euclidean distance,Euc)是两个序列距离度量的最简单常用的方法,如时间序列x和y的欧式距离为:
如图1a所示,该距离不能在时间轴上进行伸缩变换,不能计算不等长时间序列之间的距离,如对于{a,a,b,C}和{a,b,c,c},尽管两个序列相似性很高,但是其欧氏距离比较大。
动态时间弯曲距离(Dynamic time warping distance,DTW)相比于欧氏 距离支持时间轴上的弯曲,可以很方便地应用在不等长时间序列的距离度量上。
时间序列x和y之间的动态时间弯曲距离定义为:
Dtw(,)=0,
Dtw(x,)=tw(,y)=∞,
取δ(xi,yi)=(xi-yi)2
DTW实际上就是确定序列x和y上每个点之间的对齐匹配关系,如图2a所示,两条曲线整体上的波形形状很相似,但在时间轴上不对齐。如在t20时,实线波形的a点会对应于虚线波形的b’点,传统欧氏距离不能体现序列相似性,而实线的a点对应虚线的b点时序列相似性提高。图2b中,DTW使两个波形一一对齐,这是它们的最好匹配路径,能够使得两条曲线相似性最高,但是,DTW距离使不同天的信息进行对齐,造成紊乱。
另外,传统聚类算法为了能够用于不等长时间序列聚类,所采用的样本距离因损失了部分时间序列信息,导致精度下降。
发明内容
鉴于上述问题,本发明的目的是提供一种精确度高、聚类效果好的基于时间序列的话题发展聚类分析系统和方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国传媒大学,未经中国传媒大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710071763.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种访问不同数据库的系统及方法
- 下一篇:基于企业云盘的数据文档按需同步方法