[发明专利]基于时间序列的话题发展聚类分析系统和方法有效
申请号: | 201710071763.9 | 申请日: | 2017-02-09 |
公开(公告)号: | CN108415910B | 公开(公告)日: | 2021-03-05 |
发明(设计)人: | 殷复莲;张贝贝;刘晓薇;苏沛;王颜颜;白雪松 | 申请(专利权)人: | 中国传媒大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/9536;G06Q50/00 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 陈英俊;杨桦 |
地址: | 100024 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于时间序列的话题发展聚类分析系统和方法,方法包括:采集话题形成累计阅读量时间序列;对上述时间序列进行前向差分得到话题热度时间序列;判断话题是否处于衰退期;若不处于衰退期继续话题采集;若处于衰退期,分别计算各话题间的S‑Euc和S‑DTW,对所有话题进行聚类。系统包括:数据采集部;数据处理部,对累计阅读量时间序列进行前向差分处理,判断话题是否处于衰退期,将不处于衰退期的话题存储到第一话题存储库,将处于衰退期的话题存储到第二话题存储库;时间序列距离计算部,分别计算各话题间的S‑Euc和S‑DTW;话题聚类部,对所有话题进行聚类。上述系统和方法精确度高、聚类效果好。 | ||
搜索关键词: | 基于 时间 序列 话题 发展 聚类分析 系统 方法 | ||
【主权项】:
1.一种基于时间序列的话题发展聚类分析系统,其特征在于,包括:数据采集部,采用预定采集周期从网络、微博上采集话题,所述话题包括话题URL、话题名称、累计阅读量时间序列,其中,所述累计阅读量时间序列为不同采集时间对应的话题累计阅读量构成的时间序列;数据处理部,包括差分模块、第一判断模块、第一话题存储库和第二话题存储库,所述差分模块对每一个话题的累计阅读量时间序列进行前向差分得到每一个话题的话题热度时间序列,所述第一判断模块根据所述话题热度时间序列判断话题是否处于衰退期,将不处于衰退期的话题存储到第一话题存储库,将处于衰退期的话题存储到第二话题存储库;时间序列距离计算部,包括分段模块、时间序列距离计算第一模块和时间序列距离计算第二模块,所述分段模块对每一个话题热度时间序列按照自然日进行分段,所述时间序列距离计算第一模块和时间序列距离计算第二模块分别计算各话题之间的分段欧式距离(S‑Euc)和分段动态弯曲距离(S‑DTW);话题聚类部,基于各话题之间S‑Euc和S‑DTW采用聚类方法对所有话题进行聚类,其中,所述时间序列距离计算第一模块包括第一天数计数单元、第一判断单元、第一时间段划分单元、对齐单元和第一距离计算单元,所述第一天数计数单元计算任意两个话题的话题热度时间序列持续的天数;所述第一判断单元判断两个话题热度时间序列的持续的天数是否相同,如果相同,发送第一信号给对齐单元,如果不相同,发送第二信号给第一时间段划分单元;所述第一时间段划分单元接收到第二信号后,将两个话题热度时间序列分成三个时间段并发送第三信号给对齐单元,第一时间段为第一天至较短话题持续天数的前一天,第二时间段为较短话题持续天数的当天,第三时间段为较短话题持续天数的后一天至较长话题持续天数;所述对齐单元收到第一信号时,采用0填充对齐两个话题热度时间序列第一天和最后一天的数据,并发送第四信号给第一距离计算单元,所述对齐单元收到第三信号时,采用0填充对齐两个话题热度时间序列第一天的数据以及较短的话题热度时间序列最后一天的数据,并发送第五信号给第一距离计算单元;所述第一距离计算单元接收第四信号后,计算对齐后两个话题热度时间序列的S‑Euc,所述第一距离计算单元接收第五信号后,按照第一时间段划分单元划分的三个时间段分段计算两个话题热度时间序列的时间序列距离,将三个时间段的时间序列距离相加得到两个话题的S‑Euc,其中,所述时间序列距离计算第二模块包括第二天数计数单元、第二判断单元、第二时间段划分单元和第二距离计算单元,其中,所述第二天数计数单元计算任意两个话题的话题热度时间序列持续的天数;所述第二判断单元判断两个话题热度时间序列的持续的天数是否相同,如果相同,发送第六信号给第二距离计算单元,如果不相同,发送第七信号给第二时间段划分单元;所述第二时间段划分单元接收到第七信号后,将两个话题热度时间序列分成两个时间段并发送第八信号给第二距离计算单元,第一时间段为第一天至较短话题持续天数当天,第二时间段为较短话题持续天数的后一天至较长话题持续天数;所述第二距离计算单元接收第六信号后,计算两个话题热度时间序列的S‑DTW,所述第二距离计算单元接收第八信号后,按照时间段划分单元划分的两个时间段分段计算两个话题热度时间序列的时间序列距离,将两个时间段的时间序列距离相加得到两个话题的S‑DTW。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国传媒大学,未经中国传媒大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710071763.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种访问不同数据库的系统及方法
- 下一篇:基于企业云盘的数据文档按需同步方法