[发明专利]一种基于随机森林和用户关系的OSN用户情感分析方法有效
申请号: | 201510611410.4 | 申请日: | 2015-09-23 |
公开(公告)号: | CN105183717B | 公开(公告)日: | 2018-04-24 |
发明(设计)人: | 曹玖新;马卓;王瑶;刘波;陈高君 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙)32204 | 代理人: | 柏尚春 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 随机 森林 用户 关系 osn 情感 分析 方法 | ||
技术领域
本发明涉及一种基于随机森林和用户关系的OSN用户情感分析方法,属于社会计算领域,特别是情感计算领域。
背景技术
随着互联网的飞速发展,社交网络近年来成为一个社会热点事件发布、信息交流的平台。人们乐于在网络中发表自己的观点、表达自己的态度及情感,如对电影的评论,对产品的评价或对热点事件或话题的态度。然而随着在线社交网络的快速发展和用户规模的激增,面对海量的数据,仅仅使用人工方式实现用户对事件、产品的情感倾向分析并不现实。因此需要应用相关技术对用户产生的文本、用户行为记录进行综合分析,得出用户对事件、产品的情感倾向。
用户产生的文本信息包含了很多情感信息和各种情感倾向,因此很多用户情感分析研究都是基于用户文本,有的采用权重计算方法,有的采用机器学习方法。目前很多用户情感分析研究都是仅基于用户文本进行情感倾向分析,很少有研究将用户关系考虑进去。但是社交网络中的用户都是有关联的,相互关联的用户倾向于持有类似的观点或情感,用户关系的加入可能会提高用户情感分类的准确率。
发明内容
发明目的:针对现有技术中存在的问题,本发明提出一种基于随机森林和用户关系(User Random Forest,简称URF)的OSN用户情感分析方法,利用基于情感词典的随机森林机器学习方法对文本进行情感分类,有效分析文本情感正负性;引入用户关注关系改进传统情感分析,提取用户共同好友数、用户转发行为等因素,综合用户所发微博的情感极性及他关注用户的微博情感极性,对用户对于某话题的情感倾向进行分析;引入文本预处理和文本特征选择,保证了情感分析结果的准确度;同时采用特征降维,避免过度拟合,改进预测性能。
技术方案:为了解决上述问题,本发明提出一种基于随机森林和用户关系的OSN用户情感分析方法,包括如下步骤:
1)选择已进行情感极性标注的一定数量的微博文本作为训练集,进行文本预处理,同时提取训练集特征向量;
2)随机选择一个话题,在该话题下选择一定数量的微博文本作为测试集,进行文本预处理,同时提取测试集特征向量;
3)将步骤1得到的训练集特征向量送到数据挖掘软件Weka中训练、学习,选用随机森林分类算法预测步骤2得到的测试集中每条微博文本的情感极性;
4)结合用户关系和步骤3得到的用户自身文本情感极性预测值,计算测试集中每个用户关于步骤2中所选话题的情感极性;
5)由步骤4得到用户关于步骤2中所选话题的情感极性,判断用户关于步骤2中所选话题的情感倾向。
所述步骤1的数据集中情感极性标注的具体方法为:每条微博的的真实情感极性由多位研究者共同标注,每位研究者凭自己的主观感觉判断情感极性,意见不同时采用少数服从多数的投票方式决定。
所述步骤1和步骤2进行文本预处理的具体方法为:利用中国科学院计算技术研究所推出的汉语词法分析系统ICTCLAS对选择的微博文本进行分词,同时去除停用词和情感无关符号。
在分词处理的过程中,还将常用微博表情符号和微博常用词作为用户词典添加进ICTCLAS分词系统中进行分词。
所述去除停用词的方法为基于停用词表的处理方法。
所述情感无关符号包括#、@和http://。
所述步骤1和步骤2提取特征向量的具体方法为:选取unigram、bigram、情感词、表情符号、带有情感色彩的标点符号、否定词、转折词,并基于词频进行特征降维,删除出现次数小于350次的unigram和bigram,用剩余的所有特征建立向量;其中,将unigram和bigram组合作为特征,如果该词出现则特征权重为1,否则为0;使用正向情感词、负向情感词出现次数来描述情感词特征;使用转折词出现次数来描述转折词特征;使用否定词出现次数来描述否定词特征;使用带有情感的标点符号的出现次数来描述带有情感的标点符号特征;使用正向表情符号、负向表情符号出现次数来描述表情符号特征,以此得到特征权重。
所述步骤4计算每个用户关于话题情感极性的具体方法为:
S(u)=(1-a)*Wu+a*∑v∈following(u)PuvWv (1)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510611410.4/2.html,转载请声明来源钻瓜专利网。