[发明专利]一种扩展情感词典的方法、装置、计算机设备和存储介质在审
申请号: | 202111139468.5 | 申请日: | 2021-09-26 |
公开(公告)号: | CN113887236A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 谭又伟;赖金南 | 申请(专利权)人: | 广州荔支网络技术有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F40/242;G06F40/216 |
代理公司: | 广州佳睿知识产权代理事务所(普通合伙) 44610 | 代理人: | 李健富 |
地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 扩展 情感 词典 方法 装置 计算机 设备 存储 介质 | ||
本发明涉及一种扩展情感词典的方法、装置、计算机设备和存储介质。所述方法包括以下步骤:获取文本数据,对所述文本数据进行分词处理并确定文本数据的目标分词;将词频最大的前N个目标分词作为词集合;将词集合与预先构建的基础情感词典取交集,得到由种子词组成的种子情感词典;将tf_idf值大于预设阈值的目标分词作为新增词;基于新增词的情感向量表示、新增词的词性、各情感极性的种子情感词典的情感中心向量表示确定新增词的情感极性;确定新增词的极性值。所述方法不需要人工对词进行标注,每个词可以赋予不同的情感极性值,极性表达能力更强。
技术领域
本发明涉及情感分析技术领域,尤其是涉及一种扩展情感词典的方法、装置、计算机设备和存储介质。
背景技术
文章、语句、评论等文本通常能够反映发表者的情感倾向,如针对某事件的态度倾向、针对某物体或某人物的喜好倾向等。通常用于表达意见、观点、态度的词语往往具有一定的情感倾向,基于这些词语所构建的情感词典,具有十分重要的意义,可用于个人形象的维护、企业营销管理及品牌宣传、商家对产品的改进等方面。
目前构建情感词典的方法有:
1、专家标注法
专家标注法是一种最直接的方法,即由专家通过阅读大量相关语料或借助现有词典,人工总结出具有情感倾向的词,标注其情感极性或强度,构成词典。如已有的WordNet、General Inquirer(GI)词典和知网情感分析用词语集等。
缺点:
需要大量的人工标注工作,效率较低且易受到主观性的影响;
情感强度标注的细粒度与精确度得不到保证。
2、基于语料库的方法
基于语料库的方法比较有代表性的方法主要是SO-PMI(情感倾向点互信息算法,Semantic Orientation Pointwise Mutual Information),SO-PMI算法由两部分组成:SO-PMI和PMI。算法整体思想很简单,判断需要判断的词语P(word)与基准词P(base)同时出现的概率,如果与积极(positive)的词同时出现的概率更高,那么就判断为积极的词语,如果与消极 (negative)的词同时出现的概率更高,那么就判断为消极的词语,如果与积极和消极的概率相同,那么就判断为中性的词语。
缺点:
如果一个词出现概率比较小,得不到该词语的正确情感倾向;
共现窗口比较难选取;
没有考虑词语的语义;
得到的极性类别只有一个,但是通常情况下,很多词语在不同的语境中,其极性是不一样的,因此,有些词存在多重极性。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种扩展情感词典的方法、装置、计算机设备和存储介质。
第一方面,本发明实施例提供了一种的方法,所述方法包括以下步骤:
获取文本数据,对所述文本数据进行分词处理,根据得到的分词确定文本数据的目标分词;
统计所述目标分词的词频,将词频最大的前N个目标分词作为词集合;
将词集合与预先构建的基础情感词典取交集,得到由种子词组成的种子情感词典;所述种子情感词典包括积极种子情感词典、消极种子情感词典、否定副词种子情感词典、程度副词种子情感词典;
分别计算所述目标分词tf_idf值,将tf_idf值大于预设阈值的目标分词作为基础情感词典的新增词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州荔支网络技术有限公司,未经广州荔支网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111139468.5/2.html,转载请声明来源钻瓜专利网。