[发明专利]一种基于时间及用户的转发序列的微博流行度预测方法有效
申请号: | 201910621977.8 | 申请日: | 2019-07-10 |
公开(公告)号: | CN110336700B | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 黄宏宇;刘海燕 | 申请(专利权)人: | 重庆大学 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/58;G06F16/35;G06Q10/04;G06Q50/00 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 赵荣之 |
地址: | 400044 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时间 用户 转发 序列 流行 预测 方法 | ||
1.一种基于时间及用户的转发序列的微博流行度预测方法,其特征在于:包括以下步骤:
S1:利用循环神经网络对微博的转发序列进行建模,用来捕获消息传播过程的长距离依赖;
S2:获取循环神经网络的隐藏层输出,然后进行非线性变换,得到微博在每个转发时刻的传播速率;
S3:利用速率得到的早期趋势加速度和早期的流行度,并在用户活跃度的优化下,对微博未来的流行度进行预测;包括以下步骤:
S31:利用得到的速率函数计算微博到观察时间内的传播趋势加速度,计算公式如下:
其中,Tobs表示观察时间,n表示转发序列中元素个数,vi表示每个转发时刻的速率函数;
S32:将用户活跃度量化,得到微博平台上每个时间段的用户活跃度,具体的量化公式如下:
其中,N(t)表示从一天的开始时间到当前时间t为止用户发布微博的平均数量,η表示微博平台上单位时间内的用户发布微博的平均数量;
S33:将步骤S31的趋势加速度和消息早期的流行度分别除以步骤S32的用户活跃度得到相对趋势加速度和相对流行度,如下:
然后联合两者建立线性回归模型,计算公式如下:
其中,β0,β1,β2为模型参数。
2.根据权利要求1所述的基于时间及用户的转发序列的微博流行度预测方法,其特征在于:步骤S1包括以下步骤:
S11:时间向量的映射,对于每个时间组成单位,按照其上一级的单位转换为该单位的长度,然后设置它在向量中的长度,接着将用户信息向量化,收集微博中每个用户的历史微博文本信息,聚合成代表该用户的文档,所有的用户文档聚合成一个文档集,随机生成各个主题的主题-词分布以及各个用户微博文档的文档-主题分布,根据文档-主题分布和主题-词分布,生成全部文档中的词,根据LDA主题模型的吉布斯抽样不断进行模型的训练,最终得到每个用户文档的主题分布,用该主题分布作为用户的兴趣向量;
S12:将时间和用户向量拼接起来作为一个整体输入,按照一定的规则进行嵌入操作;
S13:将步骤S12的结果作为输入到循环神经网络中,经过嵌入层输入到底层RNN中进行传播训练,采用LSTM作为循环神经网络来解决标准神经网路中梯度消失的问题,经过遗忘门、输入门、输出门最终得到每个时间步的隐藏层输出;
遗忘门公式为:
ft=σ(Wf.[ht-1,xt]+bf),
其中,xt是第t层的输入,ht表示当前时间步的隐藏层信息,ht-1表示前一个时间步的隐藏层信息,“.”表示向量的乘法运算,中括号表示两个向量相连合并,σ(·)为sigmoid激活函数,Wf为权重矩阵,bf为偏置向量
输入门及网络状态更新为:
it=σ(Wi.[ht-1,xt]+bi),
其中,WC和bC分别代表权重矩阵和偏置向量,tanh是双曲正切函数;
输出门为:
ot=σ(WO.[ht-1,xt])+bo),ht=ot*tanh(Ct)
其中,Wo和bo分别是权重矩阵和偏置参数。
3.根据权利要求1所述的基于时间及用户的转发序列的微博流行度预测方法,其特征在于:所述步骤S2中,获取循环神经网络的隐藏层输出,然后进行非线性变换,得到微博在每个转发时刻的传播速率,将消息的转发过程建模成随机点过程,计算公式如下:
vt=exp(Wmht+bm)
其中,Wm为权重矩阵,bm为偏置参数,Ht的影响体现在Wmht上,ht是循环神经网络的隐藏层信息,也代表序列数据中的历史信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910621977.8/1.html,转载请声明来源钻瓜专利网。