[发明专利]一种基于深度生存分析的网络话题爆发时间预测方法有效
申请号: | 202010738271.2 | 申请日: | 2020-07-28 |
公开(公告)号: | CN111966829B | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 田玲;罗光春;陈爱国;张栗粽;唐文佚;吴东东 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/9532;G06F40/289 |
代理公司: | 电子科技大学专利中心 51203 | 代理人: | 周刘英 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 生存 分析 网络 话题 爆发 时间 预测 方法 | ||
本发明公开了一种基于深度生存分析的网络话题爆发时间预测方法,属于网络话题预测领域。本发明包括以下步骤:获得数值时间序列数据,将网络话题相关数值量转化为时间序列;获得文本时间序列数据,将网络话题相关时变文本转化为时间序列;获得文本特征时间序列,基于所设置的文本特征提取器,通过文本时间序列数据获得文本特征时间序列;构建基于生存分析的深度学习模型,深度生存模块进行回归预测,输出话题危险率;模型训练,模型训练基于全新设计的损失函数进行训练;确定判断阈值,通过枚举法找到最优判断阈值,实现网络话题爆发时间预测。本发明用于网络话题的爆发预测,能有效提升预测准确性。
技术领域
本发明涉及网络话题预测领域,具体涉及一种适用于网络话题爆发预测的深度学习方法。
背景技术
现有用以解决网络话题爆发时间的预测方法可分为两类,一类是针对网络话题爆发时间专门的预测方法,另一类是针对关键时间点的通用预测方法。两类方法虽然可以在一定程度上解决网络话题爆发时间预测问题,但是由于两类方法存在的固有缺陷,实际预测效果不佳,难以满足实际使用需求。
针对网络话题爆发时间专门的预测方法,基于传统的机器学习技术,通过预设网络话题爆发时间满足特定的概率分布,利用话题热度的数值型相关量作为机器学习训练数据的输入,通过拟合概率分布的各参数,最终形成一个网络话题爆发时间预测模型。该类方法的实际预测效果不佳,主要原因有三点:首先预测效果严重依赖于人工预设概率分布的适用性;其次基于单一分布的模型假设使得到的模型泛化能力效果差;最后跟网络话题爆发密切相关的话题相关时变文本信息未被利用。
针对关键时间点的通用预测方法,即各种生存模型,基于生存分析理论,通过传统生存模型或深度学习模型,利用数值型的时间序列数据作为模型训练数据的输入,模型输出为生存概率的分布或风险率的分布。目前效果最优、并与本文最相关的生存模型为基于深度学习的生存模型,包含基于普通深度网络的和基于循环神经网络的。基于深度学习的生存模型直接应用于网络话题爆发时间预测问题时,仅使用数值型的时间序列数据训练模型,缺乏对话题相关时变文本信息的挖掘,未充分利用话题相关时变文本与话题爆发时间的相关性,因此实际预测效果一般。
发明内容
本发明的发明目的在于:针对上述现有技术存在的技术缺陷,提供一种基于生存分析的深度学习方法。其旨在解决现有针对网络话题爆发时间专门的预测方法和针对关键时间点的通用预测方法,受限于预设概率分布,或未有效利用网络时变文本信息的技术问题,最终实现网络话题爆发时间的准确预测。
为达到上述目的,本发明采用的技术方案如下:
一种基于深度生存分析的网络话题爆发时间预测方法,包括如下步骤,
步骤1、根据预设的时间区间数量,采集基于网络话题的热度时间序列数据和时变文本时间序列数据;
其中,热度时间序列数据为:网络话题在不同时间区间的热度值;
时变文本时间序列数据为:网络话题在不同时间区间所相关的文本(即在采集的时间区间内,包含当前网络话题的文本);
本发明中,一条时间序列数据对应一个网络话题,可根据实际需求设定总时间区间数量,基于不同时间区间的网络话题的热度值,形成基于网络话题的热度时间序列数据,即热度时间序列;以及基于不同时间区间的网络话题相关文本,形成基于网络话题的时变文本时间序列数据,即文本时间序列。
步骤2、提取文本特征时间序列数据:
基于中文短文本分类数据集,训练得到一个短文本分类器,并将训练得到的短文本分类器去掉分类输出层后的网络模型作为文本特征提取器;
基于所述文本特征提取器获取文本时间序列中的各文本的文本特征向量,得到文本特征时间序列;
步骤3、构建基于生存分析的深度学习模型:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010738271.2/2.html,转载请声明来源钻瓜专利网。