[发明专利]一种基于随机森林和用户关系的OSN用户情感分析方法有效
申请号: | 201510611410.4 | 申请日: | 2015-09-23 |
公开(公告)号: | CN105183717B | 公开(公告)日: | 2018-04-24 |
发明(设计)人: | 曹玖新;马卓;王瑶;刘波;陈高君 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙)32204 | 代理人: | 柏尚春 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 随机 森林 用户 关系 osn 情感 分析 方法 | ||
1.一种基于随机森林和用户关系的OSN用户情感分析方法,其特征在于,包括如下步骤:
1)选择已进行情感极性标注的一定数量的微博文本作为训练集,进行文本预处理,同时提取训练集特征向量;
2)随机选择一个话题,在该话题下选择一定数量的微博文本作为测试集,进行文本预处理,同时提取测试集特征向量;
3)将步骤1得到的训练集特征向量送到数据挖掘软件Weka中训练、学习,选用随机森林分类算法预测步骤2得到的测试集中每条微博文本的情感极性;
4)结合用户关系和步骤3得到的每条微博文本情感极性预测值,计算测试集中每个用户关于步骤2中所选话题的情感极性;
5)由步骤4得到用户关于步骤2中所选话题的情感极性,判断用户关于步骤2中所选话题的情感倾向;
其中,所述步骤4计算每个用户关于话题情感极性的具体方法为:
S(u)=(1-a)*Wu+a*∑v∈following(u)PuvWv (1)
其中,S(u)表示用户u关于话题topic的情感极性,a表示用户u受他人影响的概率,Wu表示用户u关于话题topic所发微博的极性和,Puv表示用户u和v之间的关系强度,Wv表示用户v关于话题topic所发微博的极性和,following(u)表示用户u关注的所有用户的集合,∑v∈following(u)PuvWv表示用户u关注其他用户关于话题topic所发微博的极性和,一篇正向微博的情感极性是+1,一篇负向微博的情感极性是-1。
2.根据权利要求1所述的基于随机森林和用户关系的OSN用户情感分析方法,其特征在于,所述用户u和v的关系强度通过用户u转发用户v微博文本的量以及用户u与用户v共同关注微博用户的量来衡量,具体计算方法为:
用户u转发用户v微博文本的量ZFuv为:
其中,Tuv表示用户u转发用户v的微博数,following(u)表示用户u关注的所有用户的集合,Tui表示用户u转发用户i的微博数,∑i∈following(u)Tui表示用户u转发的所有微博文本的总数;
用户u和用户v共同关注用户的量CFuv为:
其中,following(u)表示用户u关注的所有用户的集合,following(v)表示用户v关注的所有用户的集合,|following(u)∩following(v)|表示用户u与用户v共同关注的用户数,following(i)表示用户i关注的所有用户的集合,|following(u)∩following(i)|表示用户u与用户i共同关注的用户数,∑i∈following(u)|following(u)∩following(i)|表示用户u与他关注的用户共同关注的用户数总和;
则用户u和v的关系强度Puv为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510611410.4/1.html,转载请声明来源钻瓜专利网。