[发明专利]一种基于混杂特征计算的微博主题情感分析方法在审
申请号: | 201610020251.5 | 申请日: | 2016-01-13 |
公开(公告)号: | CN105701210A | 公开(公告)日: | 2016-06-22 |
发明(设计)人: | 黄发良;元昌安;何万莉;李超雄 | 申请(专利权)人: | 福建师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06Q50/00 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350117 福建省福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混杂 特征 计算 主题 情感 分析 方法 | ||
技术领域
本发明涉及网络舆情分析技术领域,特别涉及一种应用于Web2.0环境下社交网络 的基于混杂特征计算的微博主题情感分析方法。
背景技术
以自由开放共享为核心精神的Web2.0使得用户成为互联网的主角,诸如社交网 站、微博和BBS论坛之类的平台为网民发表意见和交流情感提供了经济便捷的渠道。一般来 说,用户在微博平台上发表的言论比较简短却又饱含着丰富的个人情感与主观倾向性,例 如,不同读者对于同一条新闻事件持有不同的看法,不同用户对于某款手机有着其个性化 的用户体验,不同影视爱好者对于同一部电影会留下不同的观影评论,等等。研究如何高效 挖掘隐藏于这些鱼目混杂的微博消息中的主题与情感有助于各级政府机构、企业组织与理 性个体的管理决策,例如,政府机构可以对网络舆论进行实时监测与导向、网上商家能够根 据用户反馈意见及时调整生产服务实现利润最大化、个体网民可以敏捷获取目标信息,等 等。
文本情感分析又称意见挖掘,其实质是对带有情感色彩的主观性文本进行分析、 处理、归纳和推理的过程,目前正在吸引着来自人工智能、数据挖掘、自然语言处理等不同 领域研究者的广泛关注,涌现出的具体算法不胜枚举,其中以有监督情感分类方法与无监 督情感分类方法最为引人注目。
有监督情感分类的基本思想是通过对具有情感极性标记的训练样本模型学习并 以此训练好的模型对未见文本进行情感分类。该类方法主要涉及训练集获取、文本向量化、 分类器训练与分类器检测等步骤。具有里程碑意义的是2002年Pang应用3个代表性分类器 (支持向量机SVM、朴素贝叶斯NB与最大熵ME)对文本情感分类任务进行实验研究,得出机器 学习的文本情感分类性能远高于随机猜选,可达到大致80%的准确率.文本向量化过程涉及 的特征工程在情感分类任务中起着至关重要的作用,因而,很多研究者围绕着文本情感表 示模型展开研究。Mullen等提出基于wordnet特征项的Osgood情感特征权重值计算机制。Ng 等设计出基于n-gram的5类特征项用于文本情感识别。Kennedy等提出在使用单个词语特征 的基础上,通过语境情感值转换器构造双词词组形式的上下文敏感的特征项。Rui等提出一 种词语关系特征与单个词语特征相结合的文本情感特征模型。Bespalov等提出一种基于词 语、短语与文档等多级嵌入的短文本情感表示方法,然后利用深度神经网络学习情感的分 布式表示向量。Li等提出“短语-句子”的混合表示模型,在短语粒度上运用Left-Middle- Right模板与条件随机场CRF来提取情感词。尽管各种基于不同情感表示模型的有监督情 感分类方法取得长足的进步。但绝大多数情感表示模型是针对长文本的,很难直接应用于 微博情感分析任务。
虽然有监督情感分类器能取得较高的分类准确率,但其训练过程需要大量带情感 标签的训练数据,人工标记的高昂代价与机器标记的低劣质量使得有监督情感分类方法的 实际应用大打折扣。因而,无需标签数据的无监督情感分类策略因势而动。现有的无监督情 感分类方法大致可分为两类,其一是基于主题模型的情感分类方法,其二是基于情感特征 项集成的情感分类方法。前一类方法中的代表性算法有:Mei等提出一个主题情感模型TSM 进行主题及其相关情感的演化分析。TSM一方面存在着类似pLSI所有的学习过度问题,另一 方面需要相关后处理操作才能完成文档情感的预测。Titov等应用MG-LDA提取评论对象中 的各个被评价,然后提出MAS模型对情感进行总结,MAS模型要求评论对象的每个方面至少 在部分评论中被评价过,然而,这对真实评论文本数据集来说是不实际的。Dasgupta等提出 一种基于用户反馈的谱聚类技术进行网络文本的无监督情感分类,聚类分析过程涉及数据 特征都是具有情感倾向的主题,然而,在该分析过程中需要人为指定最重要的特征维。Lin 等提出一种基于LDA模型的JST模型,该模型将文本情感标签加入LDA,形成一个包含包含 词、主题、情感和文档的四层贝叶斯概率模型。后一类方法中的代表性算法有:Hu等提出一 种基于wordnet的情感词典构建法,首先人工选出情感极性已知的情感词作为种子词,然后 迭代进行同义或反义搜索不断将扩展情感词典。Andreevskaia等以不同的种子词集在 wordnet同义关系图中进行bootstrap,然后通过运用模糊理论对各个词在所有bootstrap 结果中表现为积极或消极情感的频数进行规范化得到词的情感值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610020251.5/2.html,转载请声明来源钻瓜专利网。