[发明专利]一种基于词项主客观偏向性的中文微博情感分析方法在审

专利信息
申请号: 201711279503.7 申请日: 2017-12-06
公开(公告)号: CN108038166A 公开(公告)日: 2018-05-15
发明(设计)人: 刘进;郭峻材;陈雪;崔晓晖 申请(专利权)人: 武汉大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 鲁力
地址: 430072 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 主客观 偏向 中文 情感 分析 方法
【说明书】:

发明涉及一种基于词项主客观偏向性的中文微博情感分析方法。步骤如下:(1)获取待分析的目标微博数据集;(2)对每篇微博进行分词、词性标注、停用词过滤等预操作,并对前接否定词的情感词进行组合操作;(3)对预处理后的微博数据,引入情感先验知识和偏向性先验知识;(4)利用Gibbs采样算法采样每个词项的偏向性、情感和主题标号;(5)计算每篇微博的偏向性和情感联合分布变量;(6)计算每篇微博最终的情感极性概率分布,进而确定微博的情感极性。该方法针对微博数据提出词项的主客观偏向性(简称偏向性)的概念,使用Gibbs算法对偏向性、情感和主题的关系联合建模。该方法简单实用,能显著提高微博情感分类性能。

技术领域

本发明涉及一种对中文微博的情感分析方法,具体是涉及针对微博数据集,提出词项的偏向性的概念,同时引入情感先验知识和偏向性先验知识,基于偏向性、情感和主题的关系使用Gibbs采样算法对这三者联合采样,然后计算每篇微博的偏向性和情感联合分布变量,再计算每篇微博最终的情感概率分布,进而确定微博的情感极性,是一种基于词项主客观偏向性的中文微博情感分析方法。

背景技术

近年来,随着互联网技术的飞速发展,各种社交媒体平台迅速崛起,人们越来越多的利用微博等社交媒体表达自己的情感或观点,每天都有海量的微博不断地在产生和传播。和传统长文本相比,微博短文本具有简短、口语化、不规范和特征稀疏等特点,如何从中有效地挖掘情感或意见知识,已经成为一个重要的研究方向。

目前对微博情感分析主要有两大类方法:基于情感词典的方法和基于机器学习的方法。基于情感词典的方法主要利用情感词典中的情感词,通过关键词匹配,进而决定一篇文本的情感极性或强度,这类方法的主要缺陷是过分依赖于表面特征。基于机器学习的方法还分为全监督、弱监督和无监督方法。全监督方法首先在人工标注的大规模数据集上训练情感分类器,再将训练好的分类器用于进一步的情感分类中,其中的人工标注尤其耗时耗力。弱监督方法主要利用社交网络文本中的表情符号等噪声标记作为文本的情感标记,再使用全监督方法训练分类器,但是标记中存在的噪声也会影响分类器的性能。无监督方法不需要训练集,大多以情感词作为情感先验来引导情感分析。

近期研究表明,文本的情感与主题具有依赖关系,在这一思想基础上,出现了很多情感和主题的联合模型。这类无监督方法首先基于情感和主题的关系构建出合理的词项生成模型,然后利用Gibbs采样方法对词项的情感和主题进行联合采样,进而计算文本的情感分布,并以概率最大的情感类别作为文本所属的情感类别。

上述基于情感和主题关系来分析微博情感的方法存在以下不足:

(1)它们只认为情感和主题有依赖关系,没有考虑偏向性对情感的影响;

(2)当用于微博领域时,它们不能很好地利用表情符号这一最典型的情感特征;

(3)由于没有考虑偏向性,它们无法利用表情符号和词项的词性所包含的偏向性先验知识。

发明内容

本发明的目的在于针对目前中文微博情感分析方面的不足,提供一种基于词项主客观偏向性的中文微博情感分析方法,该方法提出词项的偏向性的概念,同时引入情感先验知识和偏向性先验知识,基于偏向性、情感和主题的关系使用Gibbs采样算法对这三者联合采样,然后计算每篇微博的偏向性和情感联合分布变量,再计算每篇微博最终的情感概率分布,进而确定微博的情感极性。

为了达到上述的目的,本发明的构思如下:获取待分析的目标微博数据集并进行预处理;引入情感先验知识和偏向性先验知识,并利用Gibbs采样算法采样每个词项的偏向性、情感和主题标号;计算每篇微博的偏向性和情感联合分布变量;计算每篇微博最终的情感极性概率分布,进而确定微博的情感极性。

根据上述的发明思想,本发明采用下述技术方案:

一种基于词项主客观偏向性的中文微博情感分析方法,其特征在于:包括以下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711279503.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top