[发明专利]一种基于微博的新词情感倾向判定方法有效
申请号: | 201510485811.X | 申请日: | 2015-08-10 |
公开(公告)号: | CN105138510B | 公开(公告)日: | 2018-05-25 |
发明(设计)人: | 严馨;周超;余正涛;洪旭东;徐广义;伏云发 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 情感倾向 微博 判定 情感倾向性 分词 构建 语料 字串 自然语言处理 词语相似度 线性分类器 分词结果 两两组合 情感词典 情感极性 中文分词 分割点 情感词 停用词 图模型 相关度 邻接 词串 分块 算法 过滤 标签 汉语 传播 统计 | ||
本发明涉及一种基于微博的新词情感倾向判定方法,属于自然语言处理领域。本发明通过中文分词工具对微博语料进行分词,以分词结果中的停用词为分割点对分词后的语料进行分块,将每个块内相邻的字串两两组合,对组合后的字串频率进行统计,将频率高于阈值的词串作为新词候选串;根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤取得新词;利用知网的情感词典,计算共现词与知网情感词的词语相似度;计算新词与共现词的相关度;构建图模型;利用标签传播算法得到新词的情感极性分布,通过构建线性分类器得到新词的情感倾向性。本发明对新词的情感倾向性的判定不仅能使博主很好的表达自己的观点,且能让用户准确的把握博主情感倾向。
技术领域
本发明涉及一种基于微博的新词情感倾向判定方法,属于自然语言处理领域。
背景技术
大量的情感新词在微博中涌现,这些新词的出现在人们的日常交流中起着重要的作用,能够更丰富全面的表达人们的观点及情感,同时也是社会趋势与新闻事件的折射。在自然语言处理过程中,情感新词识别一直是一个难点问题,其在中文分词、信息检索、问答系统等方面都有着非常重要的应用。
目前的词汇情感极性识别方法,首先选取具有强烈情感倾向的词语作为基准词,然后通过计算与基准词之间的关联强度来确定目标词的情感极性。Turney P D.等人使用PMI-IR方法,利用点互信息表示目标词与基准词之间的关联强度,求出目标词的情感极性;王素格等人使用PMI方法,分别计算词语及其同义词与褒贬基准词集的关联强度,然后根据关联强度的不同判断词语的情感极性。李钝等人认为共现的词汇具有相同的情感极性。利用HowNet中的“良”、“莠”极性义原,计算词语与基准词意项之间的极性相似度,从而计算出词语极性值。姚天昉,万常选等在计算词语关联强度时引入了链接词(而且、但是等),并利用词语在上下文中的词性和句法结构信息,计算了词语的动态(修饰)极性。提高了情感极性计算的准确性。
对于新词的情感极性识别,一方面新词缺乏词性、语义方面的先验知识,无法直接利用知网等外部资源对新词的情感极性做出判断;另一方面由于新词和基准词的数量都相对有限,仅仅计算与基准词的相关度,会出现严重的数据稀疏问题。本发明提出的基于微博语料的情感新词极性识别方法在计算新词情感极性时,不仅考虑了与新词相关联的基准词,而且考虑了具有情感倾向的非基准词以及其他新词,对新词情感极性识别的影响。
发明内容
本发明提供了一种基于微博的新词情感倾向判定方法,可解决现有情况下微博语料中的情感新词无法自动识别的问题。
本发明的技术方案是:一种基于微博的新词情感倾向判定方法,通过中文分词工具对微博语料进行分词,并以分词结果中的停用词为分割点对分词后的语料进行分块,将每个块内相邻的字串两两组合,对组合后的字串频率进行统计,将频率高于阈值的词串作为新词候选串;根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤取得新词;再利用知网的情感词典,计算共现词与知网情感词的词语相似度;计算新词与共现词的相关度;以新词和该新词的共现词为节点,在新词和它的共现词之间建立边,以新词与共现词的相关度为边的权重,构建图模型;利用标签传播算法得到新词的情感极性分布,最后通过构建线性分类器得到新词的情感倾向性。
所述方法的具体步骤如下:
Step1、通过中文分词工具对微博语料进行分词;
Step2、以分词结果中的停用词为分割点对分词后的语料进行分块,并将每个块内相邻的字串两两组合,对组合后的字串频率进行统计,将频率高于阈值T的词串作为新词候选串;
Step3、根据汉语言学的成词规则以及邻接变化数的规则对新词候选串进行过滤取得新词;
Step4、利用知网的情感词典,计算共现词与知网情感词的词语相似度:
Step4.1、找出微博语料中与新词共现的非停用词,作为共现词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510485811.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种熔断装置
- 下一篇:具有上下对抽系统的激光切割机