[发明专利]基于深度学习的微博转发预测方法在审

申请号：	201710704595.2	申请日：	2017-08-17
公开（公告）号：	CN107392392A	公开（公告）日：	2017-11-24
发明（设计）人：	杨威;王雷;黄刘生	申请（专利权）人：	中国科学技术大学苏州研究院
主分类号：	G06Q10/04	分类号：	G06Q10/04;G06Q50/00
代理公司：	苏州创元专利商标事务所有限公司32103	代理人：	范晴,丁浩秋
地址：	215123 江苏省苏州***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度学习转发预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种微博转发预测方法，具体地涉及一种基于深度学习的微博转发预测方法。

背景技术

在web2.0时代的今天，微博以其内容短小、交互便捷和传播快速等特点，成为目前应用最广泛的社交平台之一。截止2016年底，我国微博月活跃用户净增长7700万，到达3.13亿的规模，尤其是移动客户端的占有率已经达到90％。微博用户通过相互关注，相互转发博文形成了复杂的社交网络。在微博发布之初预知其未来的流行度，锁定微博的潜在热点事件给予重点关注，不仅有利于政府把握社会脉搏，预知舆论动态，同时对企业营销和热点新闻推送也具有重要的商业价值，因此，微博的互动研究对话题检测、热点跟踪、舆论监督以及商业营销都具有重要意义。要解决微博的互动预测这个问题，首先要从微博的内容中提取出相关的特征，只有含有某些特征的微博才更容易被转发。在过去的大多数研究中，都在寻找最贴合微博内容的特征，例如微博中hashtag的数量、微博是否包含URL、微博中情感词的数量、微博中是否提及他人等等。这些特征的好坏，往往决定着预测模型性能的好坏。事实上，当用户阅读到一条微博时，会根据自己已有知识对微博价值和新颖性进行主观判断，然后决定是否转发、评论或者点赞该条微博。微博的互动指数不仅仅与微博的内容相关，也与用户个体行为和用户对微博的背景认知具有紧密的相关性。

中国专利文献CN 105550275 A公开了一种微博转发量预测方法，包括：获取训练微博数据和待预测微博数据；根据训练微博的转发量，将训练微博划分为对应的类别；提取训练微博特征，包括转发网络特征、内容特征和时序特征；建立所述微博特征和转发量类别之间的多分类模型；提取待预测微博特征，根据所述的待预测微博特征，基于多分类模型，预测待预测微博的转发量类别。本发明在微博内容特征和时序特征的基础上，加入多种转发网络特征，综合利用三类特征来预测转发量。其虽然可以提高预测的准确性，但是处理过程非常复杂，当数据量非常大时，处理时间过长。

发明内容

针对上述存在的技术问题，本发明目的是：提供了一种基于深度学习的微博转发预测方法，以深度学习为框架，构建了微博文本特征提取模型，并且利用聚类技术实现用户的聚类，充分利用微博内容特征和用户行为特征来实现微博互动预测。

本发明的技术方案是：

一种基于深度学习的微博转发预测方法，包括以下步骤：

S01：通过词向量生成工具获取词的分布式向量表示，将微博正文转换为向量矩阵形式；

S02：将获取的向量矩阵输入卷积神经网络语言模型进行预训练，提取微博正文的特征，得到一个多维度的特征向量；

S03：使用不同的特征对用户进行向量化表示，对用户进行聚类，为每个类簇初始化一个卷积神经网络模型，选择样本送入其所属的模型中分别进行训练；

S04：通过线性分类器进行分类，概率最大的类别就是微博所属类别，判断微博的转发数。

优选的，所述步骤S01中词向量的维度与步骤S02中特征向量的维度相同。

优选的，所述步骤S02还包括，将微博正文中的每个词向量组合成句子向量矩阵。

优选的，所述步骤S02中的卷积神经网络语言模型使用动态下采样技术减少模型的参数规模，其公式为：

k＝max(k,(L-l)/L×s) (1)