[发明专利]一种基于混杂特征计算的微博主题情感分析方法在审

申请号：	201610020251.5	申请日：	2016-01-13
公开（公告）号：	CN105701210A	公开（公告）日：	2016-06-22
发明（设计）人：	黄发良;元昌安;何万莉;李超雄	申请（专利权）人：	福建师范大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27;G06Q50/00
代理公司：	福州元创专利商标代理有限公司 35100	代理人：	蔡学俊
地址：	350117 福建省福***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于混杂特征计算主题情感分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及网络舆情分析技术领域，特别涉及一种应用于Web2.0环境下社交网络的基于混杂特征计算的微博主题情感分析方法。

背景技术

以自由开放共享为核心精神的Web2.0使得用户成为互联网的主角，诸如社交网站、微博和BBS论坛之类的平台为网民发表意见和交流情感提供了经济便捷的渠道。一般来说，用户在微博平台上发表的言论比较简短却又饱含着丰富的个人情感与主观倾向性，例如，不同读者对于同一条新闻事件持有不同的看法，不同用户对于某款手机有着其个性化的用户体验，不同影视爱好者对于同一部电影会留下不同的观影评论，等等。研究如何高效挖掘隐藏于这些鱼目混杂的微博消息中的主题与情感有助于各级政府机构、企业组织与理性个体的管理决策，例如，政府机构可以对网络舆论进行实时监测与导向、网上商家能够根据用户反馈意见及时调整生产服务实现利润最大化、个体网民可以敏捷获取目标信息，等等。

文本情感分析又称意见挖掘，其实质是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程，目前正在吸引着来自人工智能、数据挖掘、自然语言处理等不同领域研究者的广泛关注，涌现出的具体算法不胜枚举，其中以有监督情感分类方法与无监督情感分类方法最为引人注目。

有监督情感分类的基本思想是通过对具有情感极性标记的训练样本模型学习并以此训练好的模型对未见文本进行情感分类。该类方法主要涉及训练集获取、文本向量化、分类器训练与分类器检测等步骤。具有里程碑意义的是2002年Pang应用3个代表性分类器 (支持向量机SVM、朴素贝叶斯NB与最大熵ME)对文本情感分类任务进行实验研究，得出机器学习的文本情感分类性能远高于随机猜选，可达到大致80%的准确率.文本向量化过程涉及的特征工程在情感分类任务中起着至关重要的作用，因而，很多研究者围绕着文本情感表示模型展开研究。Mullen等提出基于wordnet特征项的Osgood情感特征权重值计算机制。Ng 等设计出基于n-gram的5类特征项用于文本情感识别。Kennedy等提出在使用单个词语特征的基础上，通过语境情感值转换器构造双词词组形式的上下文敏感的特征项。Rui等提出一种词语关系特征与单个词语特征相结合的文本情感特征模型。Bespalov等提出一种基于词语、短语与文档等多级嵌入的短文本情感表示方法，然后利用深度神经网络学习情感的分布式表示向量。Li等提出“短语-句子”的混合表示模型，在短语粒度上运用Left-Middle- Right模板与条件随机场CRF来提取情感词。尽管各种基于不同情感表示模型的有监督情感分类方法取得长足的进步。但绝大多数情感表示模型是针对长文本的，很难直接应用于微博情感分析任务。

虽然有监督情感分类器能取得较高的分类准确率，但其训练过程需要大量带情感标签的训练数据，人工标记的高昂代价与机器标记的低劣质量使得有监督情感分类方法的实际应用大打折扣。因而，无需标签数据的无监督情感分类策略因势而动。现有的无监督情感分类方法大致可分为两类，其一是基于主题模型的情感分类方法，其二是基于情感特征项集成的情感分类方法。前一类方法中的代表性算法有：Mei等提出一个主题情感模型TSM 进行主题及其相关情感的演化分析。TSM一方面存在着类似pLSI所有的学习过度问题，另一方面需要相关后处理操作才能完成文档情感的预测。Titov等应用MG-LDA提取评论对象中的各个被评价，然后提出MAS模型对情感进行总结，MAS模型要求评论对象的每个方面至少在部分评论中被评价过，然而，这对真实评论文本数据集来说是不实际的。Dasgupta等提出一种基于用户反馈的谱聚类技术进行网络文本的无监督情感分类，聚类分析过程涉及数据特征都是具有情感倾向的主题，然而，在该分析过程中需要人为指定最重要的特征维。Lin 等提出一种基于LDA模型的JST模型，该模型将文本情感标签加入LDA，形成一个包含包含词、主题、情感和文档的四层贝叶斯概率模型。后一类方法中的代表性算法有：Hu等提出一种基于wordnet的情感词典构建法，首先人工选出情感极性已知的情感词作为种子词，然后迭代进行同义或反义搜索不断将扩展情感词典。Andreevskaia等以不同的种子词集在 wordnet同义关系图中进行bootstrap，然后通过运用模糊理论对各个词在所有bootstrap 结果中表现为积极或消极情感的频数进行规范化得到词的情感值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于福建师范大学，未经福建师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610020251.5/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于混杂特征计算的微博主题情感分析方法在审

专利文献下载