[发明专利]一种基于微博特定事件的影响力计算方法有效
申请号: | 201710213302.0 | 申请日: | 2017-04-01 |
公开(公告)号: | CN106980692B | 公开(公告)日: | 2020-12-08 |
发明(设计)人: | 赵志云;张雨;刘春阳;李雄;张华平;张旭;庞琳;王萌;商建云;王卿 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/9536;G06Q50/00 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 鲍文娟 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 暂无信息 | 说明书: | 暂无信息 |
摘要: | 本发明涉及一种基于微博特定事件的影响力计算方法,属于社交网络分析及数据挖掘技术领域。本发明依据传播学中事件发展的五个阶段对特定事件进行了相关分析划分并应用于影响力计算中,主要针对微博文本数据及基础的用户数据进行统计处理与自然语言处理,计算传播角度和内容角度兼顾的六项影响力指标,并使用K‑means机器学习算法对子话题进行划分;最终得出特定事件的影响力热度指数EII、事件内的用户影响力排行榜、消息影响力排行榜。对比现有技术,本发明考虑微博文本的内容指标,较全面而准确地反映了事件各方面的信息,具有很强的现实意义和实用价值。此外,本发明方法计算的时空耗费不高,易于模块化,可投入大规模的数据计算,具有较好的稳定性。 | ||
搜索关键词: | 一种 基于 特定 事件 影响力 计算方法 | ||
【主权项】:
一种基于微博特定事件的影响力计算方法,其特征在于:包括以下步骤:步骤一、进行特定事件微博及用户信息采集:基于爬虫技术或微博公开的一些数据资源,获取到需要分析的微博文本信息、微博被转发次数、微博被评论次数、用户基本信息,用户所做的评论的文本信息、用户在微博上所进行的互动信息、用户活动的时间;用户在微博上所进行的互动信息,包括评论操作、转发关系;用户基本信息,包括粉丝数、关注数,关注关系;步骤二、使用情感值计算工具或方法对获取的特定事件数据逐个计算其情感正负值,并对全体微博文本做关键词及其信息熵与词频提取;步骤三、对事件阶段进行分析:统计某个时间段内的发帖数和活跃用户,找出起始点、发展点、高潮点、胶着点、消亡点五个事件传播的关键点,以事件阶段的划分和展示对事件发展的趋势和轨迹进行描述;步骤四、针对每个参与用户进行影响力特征提取并计算其影响力:从当前事件的微博及用户数据中统计每个用户当前粉丝数X1、参与度X2、被转发评论数X3、用户发帖时间X4、转发评论该用户微博的用户的人均粉丝数X5,并据粉丝数得到对应粉丝数权重X6;参与度为发布、评论、转发微博数之和;步骤五、计算子话题及相关传播指标:根据步骤二得到的关键词,通过以下过程对关键词进行筛选以及对子话题进行划分:1、使用常用词表黑名单将常出现且多无意义的量词、连词、介词、否定词以及动词去除;2、将出现词频过高的词汇去除,在剩余词汇中根据其信息熵与词频高低对关键词进行遴选,得出各个子话题的标题;3、依据所得标题对微博文本内容进行划分,得到该事件中的各子话题微博集合,然后统计其中原创、评论、转发微博的个数,计算各条微博情感值并统计其正向、负面、中立情感的个数,以关键词形式提取其子话题标签;步骤六、对该特定事件的如下特征进行统计并计算评分,得出其事件热度指数EII(Event Influence Index):传播指标:原创微博数、评论微博数、转发微博数、用户地理分布维度;时间指标:总持续时长、敏感时期权值、舆论有无突涨/跌时段;用户指标:大V用户数、人均粉丝数、媒体用户数;内容指标:事件类别权重、集中维度、显著维度;情感指标:正负向情感占比、正负向情感评分均值;讨论指数:子话题个数、日均微博数、单日最高值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710213302.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种在线教学资源库的自动构建方法
- 下一篇:一种文件读取的方法以及装置