[发明专利]社交媒体网络事件传播关键时间预测方法、系统、介质在审
申请号: | 202011150003.5 | 申请日: | 2020-10-23 |
公开(公告)号: | CN112418269A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 安玲玲;吴梦凯;张康;姚俊;严圳;裴庆祺 | 申请(专利权)人: | 西安电子科技大学;西安电子科技大学广州研究院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/43;G06Q10/04;G06Q50/00 |
代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 黄伟洪 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 社交 媒体 网络 事件 传播 关键 时间 预测 方法 系统 介质 | ||
1.一种社交媒体网络事件传播关键时间预测方法,其特征在于,所述社交媒体网络事件传播关键时间预测方法包括:
根据社交媒体网络事件在线信息的不同时间序列特征,采用K-SC(K-SpectralCentroid)聚类算法进行类别划分;
采用霍尔特线性趋势法对波动性过强的流行度时间序列进行平滑处理;
识别预处理后的社交媒体网络事件传播的关键节点发生的时间区间;
针对经过预处理后的时间序列数据进行时间窗口划分,基于在线信息数据提取时序、波动及文本情感特征;
构建预测模型训练样本,根据训练样本和未来时间窗口数量,采用XGBoost算法训练预测模型;
采用训练完成的模型预测社交媒体网络事件传播过程的爆发、顶峰、衰退关键节点发生的时间。
2.如权利要求1所述的社交媒体网络事件传播关键时间预测方法,其特征在于,所述根据社交媒体网络事件在线信息的不同时间序列特征,采用K-SC聚类算法进行类别划分包括以下步骤:
(1)从社交平台上获取社交媒体网络事件数据集,得到社交媒体网络事件在线信息的流行度时间序列listi={pi(1),pi(2),...,pi(Ni)},其中Ni表示网络事件i的流行度时间序列的长度,pi(j)表示网络事件i在第j个固定的时间区间内的受关注程度,即该时间区间内带有事件i标签的句子在社交平台上的被搜索次数;
(2)依据以下流程对流行度时间序列完成K-SC聚类过程:
1)设置聚类类别数K;
2)从所有流行度时间序列中随机选择K个,作为初始聚类中心;
3)计算每个流行度时间序列到K个聚类中心的距离,并把该流行度时间序列划分到距离最近的类别里;
4)更新聚类中心;
5)如果更新后的聚类中心与原聚类中心相同,则停止迭代,得到K个聚类中心作为流行度时间序列,否则返回3)继续执行;
其中3)中提到的距离计算方式如下:
其中为流行度时间序列x和流行度时间序列y之间的距离,α为数量缩放系数,实现纵向放缩,b为时间轴偏移系数,实现横向平移,y(b)是将时间序列左右平移b个时间区间的后的结果,||·||为二范数。
求解时首先固定b的值,此时||x-αy(b)||/||x||为α的凸函数,α的最优值为||xTy(b)||/||y(b)||2,对于b的最优值,首先找到使两个时间序列的最高波峰对齐的b',围绕b'寻找b的最优值,通过α和b的最优值,计算出x与y的距离;
4)中第k个新的聚类中心为矩阵Mk的最小特征值对应的特征向量,其中:
Ck为划分到第k类的流行度时间序列的集合,I是单位矩阵。
3.如权利要求1所述的社交媒体网络事件传播关键时间预测方法,其特征在于,所述采用霍尔特线性趋势法对波动性过强的流行度时间序列进行平滑处理中,通过以下公式对聚类得到的K个流行度时间序列中波动性过强的序列y完成霍尔特线性趋势法的平滑处理:
其中yt表示流行度时间序列y在时间t的值,2≤t≤n,表示流行度序列数量级别在时间t的估计值,bt表示流行度序列在时间t的趋势估计值,α为数量级别的平滑参数,0≤α≤1,β为趋势的平滑参数,0≤β≤1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学;西安电子科技大学广州研究院,未经西安电子科技大学;西安电子科技大学广州研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011150003.5/1.html,转载请声明来源钻瓜专利网。