[发明专利]结合用户情感表达方式的中文情感新词识别方法和系统有效
申请号: | 201610089962.8 | 申请日: | 2016-02-18 |
公开(公告)号: | CN105786991B | 公开(公告)日: | 2019-03-15 |
发明(设计)人: | 林俊杰;毛文吉;刘春阳;王磊;苗琳 | 申请(专利权)人: | 中国科学院自动化研究所;国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F17/27 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙) 11482 | 代理人: | 宋宝库 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 用户 情感 表达方式 中文 新词 识别 方法 系统 | ||
本发明公开了一种结合用户情感表达方式的中文情感新词识别方法和系统。其中,该方法包括获取输入文本;基于所述输入文本中词频大于第一预设阈值的字符串,构建候选新词集合;使用中文旧词词库对所述候选新词集合进行过滤;基于统计指标从过滤的候选新词集合中筛选新词,构建新词集合;其中,所述统计指标为构词能力、点互信息、灵活度和邻接熵;基于情感倾向点互信息,从所述新词集合中识别情感新词,构建初始情感新词集合;基于所述输入文本中涉及的用户的情感表达方式,从所述初始情感新词集合中筛选高置信度情感新词,并将其作为所识别的中文情感新词。通过本发明实施例解决了如何提高情感新词识别的精度和灵活度的技术问题。
技术领域
本发明实施例涉及计算机科学技术领域,尤其是涉及一种结合用户情感表达方式的中文情感新词识别方法和系统。
背景技术
作为情感词库的基本组成元素,情感词是大多数文本情感分析方法的基础。随着Web2.0技术的普及,社会媒体中用于表达情感的新词不断产生,自动识别这些情感新词对情感词库构建以及文本情感分析具有重要意义。如今,互联网上的海量社会媒体文本在给情感新词识别工作带来数据支持的同时也提出了严峻的技术挑战。
以往的中文情感新词识别工作可以分为两类:其中一类工作通过句子中情感词的上下文识别新情感词,代表性工作包括:Wang等(A Bootstrapping Method forExtracting Sentiment Words Using Degree Adverb Patterns,in 2012InternationalConferences on Computer Science&Service System(CSSS),2012,pp.2173-2176)将传统情感词的前后词汇作为匹配新情感词的上下文模板,并采用Bootstrapping策略不断产生新的情感词及上下文模板;另一类工作以新词发现为基础,通过筛选新词集合中的情感词实现情感新词识别,代表性工作包括:桑等(基于广义Jaccard系数的微博情感新词判定,山东大学学报(理学版),2015,50(07),pp.71-75)基于现有分词工具识别新词,根据左右邻接词对新词以及传统情感词进行特征表示,并通过广义Jaccard系数计算新词与传统情感词的特征向量相似度,进而从新词集合中筛选情感新词。
其中,上述第二类工作大多通过定义统计指标挖掘文本中的新词,相关统计指标包括:点互信息(Unknown Chinese word extraction based on variety ofoverlapping strings,Information Processing&Management,2013,49(2),pp.497-512)、邻接熵(Chinese word segmentation based on contextual entropy,Proceedings of the 17th Asian Pacific conference on language,information andcomputation,2003,pp.152-158)、构词能力及灵活度(微博新词发现及情感倾向判断分析,山东大学学报(理学版),2015,50(01),pp.20-25)等;在新词发现的基础上,相关工作根据新词与传统情感词在文本中的共现情况或上下文相似性识别其中的情感词,如:基于“情感倾向点互信息(SOPMI)”识别情感词(Thumbs up or thumbs down?:semanticorientation applied to unsupervised classification of reviews,Proceedings ofthe 40th annual meeting on association for computational linguistics,2002,pp.417-424)。
以往中文情感新词识别方法主要存在以下不足:(1)大量方法在中文分词结果的基础上识别情感新词,因而难以识别分词工具无法正确切分的词;(2)基于新词发现的方法可能将新词发现阶段的错误传递到后续的情感词识别任务中,导致该类方法精度偏低;(3)现有方法仅利用词的上下文文本信息识别情感新词,忽略了词背后的用户情感表达方式等信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所;国家计算机网络与信息安全管理中心,未经中国科学院自动化研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610089962.8/2.html,转载请声明来源钻瓜专利网。