[发明专利]社会网络信息传播行为预测方法和设备在审
申请号: | 201710476335.4 | 申请日: | 2017-06-21 |
公开(公告)号: | CN107391581A | 公开(公告)日: | 2017-11-24 |
发明(设计)人: | 薛一波;杨骏;王兆国 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司11002 | 代理人: | 王莹,曹杰 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 社会 网络 信息 传播 行为 预测 方法 设备 | ||
技术领域
本发明涉及计算机技术,具体涉及社会网络信息传播行为预测方法和设备。
背景技术
随着信息技术的发展,Internet在全球范围内得到广泛应用,社会网络逐渐成为信息传播的重要媒介之一。社会网络的迅速普及方便了人们交流沟通以及信息传播。截至2016年末,全球最大的在线社会网络Facebook月活跃用户人数已达18.6亿,与此同时,中国较具有代表性的社会网络新浪微博月活跃用户数也达到3.13亿。在信息传播的过程中,用户是信息的制造者、发布者、传播者、接收者和评价者,用户参与程度加深、参与频率加快、参与热情加大,成为网络舆论形式中不可或缺的一部分。
当前社会网络上的信息传播呈现出渠道多样化、传播速度快、规模范围广等现象,给信息的传播分析带来了新的挑战。为保障在线社会网络的健康环境,对于正面信息,需要采取措施尽可能提高传播速度和扩大受众范围;对于负面信息则需要采取措施尽可能控制其传播扩散。因此迫切需要及时、有效、准确的对社会网络信息传播进行预测,及时把控信息传播规律。
为了解决这类问题,各领域的研究人员开始致力于这方面的研究,试图发现社会网络信息传播的关键影响因素,应用于社会网络信息传播行为预测。然而,现有的研究无法评估用户在传播同一源信息时不同情感倾向对信息后续传播的影响。
发明内容
鉴于上述问题,本发明提出了克服上述问题或者至少部分地解决上述问题的社会网络信息传播行为预测方法和设备。
为此目的,第一方面,本发明提出一种社会网络信息传播行为预测方法,包括以下步骤:
S101、从待分析社会网络上获取文本信息和信息传播关系,根据信息传播关系构建实时信息传播拓扑;
S102、基于种子情感词典对文本信息进行预处理,从文本信息中提取特征词,运用机器学习算法对特征词进行语料情感分类,获得用户情感类别;
S103、分析实时信息传播拓扑中的用户社交特征、信息内容特征、时间特征及传播结构特征;
S104、根据得到的用户情感类别,以及用户社交特征、信息内容特征、时间特征及传播结构特征,运用机器学习算法对信息传播的规模、速度及活跃周期进行预测。
可选的,所述步骤S101包括:
S201、从待分析社会网络上,根据发布源信息的源节点获取第一信息转发列表;第一信息转发列表包括转发节点的第二信息转发列表;
S202、将源节点根节点,以及根据第一信息转发列表构建实时信息传播拓扑;
S203、获得源节点的用户属性和基本属性,获得转发节点的转发属性和用户属性;
转发属性至少包括:转发用户ID、转发评论内容、转发时间、转发信息点赞数、转发信息再次转发量;
用户属性至少包括:转发用户ID、转发用户昵称、转发用户个人介绍内容、转发用户历史发表信息数、转发用户关注人数、转发用户被关注人数、转发用户性别、转发用户是否被认证;
源头信息的基本属性至少包括:源头用户ID、源头信息内容、源头信息发表时间、源头信息点赞数、源头信息转发量;
可选的,所述文本信息包括转发属性的转发评论内容和源头信息内容;
所述步骤S102包括:
S301、标定细粒度种子情感词典并赋予情感得分;
S302、基于种子情感词典处理文本信息,得到情感语料集;
S303、基于情感语料集进行分词,并进行特征选择,只保留对情感分类贡献较大的词语,压缩语料生成特征向量的特征维数;
S304、基于特征向量集训练机器学习分类器;
S305、使用步骤S304获得的机器学习分类器对文本进行情感分类,确定源头信息内容和转发评论内容的用户情感类别。
可选的,所述用户社交特征至少包括:用户名文本长度、个人介绍文本长度、用户历史发表信息数、用户关注人数、用户被关注人数、用户性别、用户是否被认证;
所述信息内容特征至少包括:信息文本长度、包含表情数、包含标签数、包含提及数;
所述时间特征至少包括:源头信息发表时刻、转发信息发表时刻、转发行为距上层转发时间间隔、转发行为距源头信息发表时间间隔;
所述传播结构特征至少包括:转发信息深度、传播拓扑深度、平均节点深度、节点度分布标准差、传播树最大子树规模占比、平均节点距离、模块度。
第二方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上任一所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710476335.4/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置