[发明专利]基于语料的情感词典构建方法有效
申请号: | 201410649358.7 | 申请日: | 2014-11-14 |
公开(公告)号: | CN104317965B | 公开(公告)日: | 2018-04-03 |
发明(设计)人: | 夏睿;王科;周清清;刘超 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京理工大学专利中心32203 | 代理人: | 朱显国 |
地址: | 210094 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于语料的情感词典构建方法,通过预先获得一部分已知情感倾向的形容词,包括积极的和消极的两种,再利用转折词和否定词,提取并分析未知情感倾向的形容词,不断扩展种子词库,最后做出判断。该方法不需要人工干预,且属于无监督的学习方法,能大大提高工作效率。该方法构造的情感词典,可以用于评论分析,能快速地得到其情感倾向,达到快速分析的目的。 | ||
搜索关键词: | 基于 语料 情感 词典 构建 方法 | ||
【主权项】:
一种基于语料的情感词典构建方法,其特征在于包括以下步骤:第一步,利用中文分词工具,对语料进行预处理,将语料中连续的中文句子划分成一个个词或者字,用空格隔开,并标记词或者字的词性;第二步,统计出语料中所有形容词的词频并按从高到低进行排序,取前5%‑10%有确定情感极性的形容词作为种子词构成情感词库,并分析种子词的情感极性,将正面评价的词的极性称为积极的,将负面评价的词的极性称为消极的,分别构成两个种子词列表,这两个种子词列表作为情感词库的初始列表,初始词频为1;第三步,取经过预处理的语料中的文本,若有需要分析的语料,按照标点对文本进行断句,得到多个分句,分句中不含标点,继续执行第四步;若没有需要分析的语料,则转至第六步;第四步,搜索得到的每一个分句中的形容词,设定一个阈值K,在形容词所在位置的前K个词或字范围内遍历,根据汉语词典中指出的具有否定意义的词,判断是否有否定词,若有,则根据极性转移规则添加到相应列表中,否则停止寻找否定词;再根据汉语词典中指出的具有转折意义的词,判断该分句是不是以转折词开头,若是,则根据极性转移规则改变当前极性,否则极性不变;然后分别按极性转移规则将分句中的形容词添加到两个列表s和a中;第五步,分析第四步得到的两个列表s和a的极性,即用情感词库中的种子词检验列表s和a的极性,若其中一个列表中含有积极种子词的数目不少于消极种子词的,则该列表中所有的词归为积极的,另一列表中的词则归为消极的;若两个列表中均分别含有相同数量的消极种子词和积极种子词,则返回第三步;否则,把两个列表s和a中判断出极性的形容词添加到情感词库的初始列表中作为种子词,若初始列表中已有该形容词,则把其词频加1,否则设置该形容词的词频为1,返回第三步;第六步, 对得到的最终的情感词库进行遍历,对同时被判断为积极和消极的词,取其词频,若属于积极的词频高,则该词为积极的,否则为消极的;所述第四步中的极性转移规则具体如下:设置plor变量,用于表示分句间的极性是否发生转移,初始为1,1表示出现偶数次转折,使得标点连接的分句是和初始极性相同,‑1表示出现奇数次转折,使得标点连接的分句和初始极性相反;形容词默认放到与初始极性相同的列表s中,列表a中放与初始极性相反的词,分为四种情况:分句开头有转折词,形容词前K个词或者字中没有否定词,如果plor=1,把形容词放到列表a中,否则放入列表s中,plor变‑1;分句开头有转折词,形容词前K个词或者字中有否定词,如果plor=1,把形容词放到s中,否则放入列表a中,plor变‑1;分句开头没有转折词,形容词前K个词或者字中有否定词,如果plor=1,把形容词放到列表a中,否则放入列表s中;分句开头没有转折词,形容词前K个词或者字中没有否定词,如果plor=1,把形容词放到列表s中,否则放入列表a中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410649358.7/,转载请声明来源钻瓜专利网。
- 上一篇:天然气的生产方法及生产系统
- 下一篇:带有流入控制的可膨胀筛组件