[发明专利]一种高精度微博转发预测方法在审
申请号: | 201611185662.6 | 申请日: | 2016-12-20 |
公开(公告)号: | CN106777162A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 陈雁;郭培伦;葛忆;李平;胡栋;朱婷婷 | 申请(专利权)人: | 西南石油大学;四川数智汇通数据有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q10/04;G06Q50/00 |
代理公司: | 成都金英专利代理事务所(普通合伙)51218 | 代理人: | 袁英 |
地址: | 610500 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 高精度 转发 预测 方法 | ||
技术领域
本发明涉及微博预测和数据挖掘领域,具体是一种高精度微博转发预测方法。
背景技术
微博是一种基于用户关系的实时信息交流、分享、传播的社交平台,与Facebook、Twitter等社交网络一样影响了人类的生活交流方式。在微博平台上,随着用户数量以亿万级为单位数量的增加,大量的图片、文本等海量信息的背后反映的是人们的生活想法、知识和有趣的事情。微博的出现除了产生有益影响,也带来了很多问题,例如不良言论的无约束传播等严重破坏了社会生活风气。所以,对微博用户的活动状态进行预测,对于政府、企事业单位、个人都有重要的意义。
在现有的微博转发预测解决方案中,公开号为CN105550275A的中国专利公开了一种微博转发量预测方法,用于解决现有技术中对微博转发量预测的方法准确性较低的问题,该方法包括:获取训练微博数据和待预测微博数据;根据训练微博的转发量,将训练微博划分为对应的类别;提取训练微博特征,包括转发网络特征、内容特征和时序特征;建立所述微博特征和转发量类别之间的多分类模型;提取待预测微博特征,根据所述的待预测微博特征,基于多分类模型,预测待预测微博的转发量类别。本发明在微博内容特征和时序特征的基础上,加入多种转发网络特征,综合利用三类特征来预测转发量,提高了预测的准确性。该发明通过训练微博数据并提取特征、建立模型的方法在一定程度上提高了微博转发预测的准确度,但是对于多级层的微博转发关系网,无法做到精确预测其中的级层转发情况,而且运算成本较高。
公开号为CN103984701A的中国专利公开了一种微博转发量预测模型生成方法及微博转发量预测方法。微博转发量预测模型生成方法包括:获取训练数据,训练数据包括多条已知转发量的微博;以微博的转发量为依据,将微博分为3个以上转发量类别;提取每条微博的基本特征;建立基本特征与转发量类别之间的多分类模型;针对每一个转发量类别,建立基本特征与微博转发量之间的回归模型。微博转发量预测方法包括:提取待预测微博的基本特征;根据多分类模型及基本特征,判定待预测微博所属的转发量类别;获取转发量类别对应的回归模型;根据回归模型及基本特征,预测待预测微博的转发量。采用本发明的提供的方法特征提取简单且适合在大规模数据中使用。该专利与本发明采用的方法不同,且解决的问题不同。
公开号为CN104915397A的中国专利公开了一种微博传播趋势预测方法及装置,用于解决现有技术中对微博传播趋势预测的方法准确性较低的问题,该方法包括:获取待预测微博的基本属性特征以及传播过程特征;计算待预测微博与训练数据的基本属性特征、传播过程特征的相似度,并对待预测微博数据进行分类,得到待预测微博所属的传播过程类别,传播过程类别由训练数据的传播过程特征相似度聚类得到;为分类后的待预测微博选择对应的回归模型,对待预测微博的传播趋势进行预测,回归模型为预先根据各类训练数据建立的回归模型,该方案提高了微博传播趋势预测的准确性。该专利与本发明采用的方法不同。
在现有的微博预测解决方案中,一般的随机游走计算对于每个网络节点的选择权重都是一样的,而带权随机游走具备一定的偏向性。例如:如果一个人转发该用户的微博频率较高那么他下一次转发的可能性就更大,反之,则不是。所以,对于多种级层关系的微博转发关系网络,假设微博用户A发表了10篇微博,微博用户B转发了8篇,微博用户C转发了2篇。初始化节点权重:A=B=C=1/3,A的节点权重会以1:1的形式分给B,C,那么,如果A发布了一篇微博,将无法精确预测下一个转发者,因为概率都一样。
综上所述,现有的微博预测方法存在精度低且运算成本高的问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种高精度预测微博转发概率的方法,以至少实现提高预测精度、降低运算成本的效果。
本发明的目的是通过以下技术方案来实现的:一种高精度微博转发预测方法,它包括以下步骤:
S1:根据微博用户的转发关系建立有向图网络;
S2:统计待测微博用户发布的微博被转发的总数N,以及待测微博用户对应的各个关注者转发的数量n1,n2,n3…ni,计算对应的每条有向边的初始权重为
S3:统计有向网络中节点个数M,并给予每个节点1/M的权重;
S4:更新每个节点的权重,首先以发布微博的用户为节点,把当前节点的权重根据相应有向边的权重分配到直接关注该微博的节点上;
S6:重复执行S4步骤,直到每个节点的权重收敛;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南石油大学;四川数智汇通数据有限公司,未经西南石油大学;四川数智汇通数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611185662.6/2.html,转载请声明来源钻瓜专利网。