[发明专利]一种情感词情感强度确定方和装置有效
申请号: | 201810272426.0 | 申请日: | 2018-03-29 |
公开(公告)号: | CN108491393B | 公开(公告)日: | 2022-05-20 |
发明(设计)人: | 杨涛;李建丽;王肃;卢洪志 | 申请(专利权)人: | 国信优易数据股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 赵志远 |
地址: | 100070 北京市丰台区南四环*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 情感 强度 确定 装置 | ||
1.一种情感词情感强度确定方法,其特征在于,该方法包括:
获得预先生成的情感词集,其中,所述情感词集包括多个情感词,所述情感词集表现为词向量矩阵,每个情感词都以词向量的方式存在;
计算所述情感词集中每两个情感词之间的相关度;其中,所述相关度是基于每两个情感词的词向量之间的距离,和/或每个词向量到词向量空间的中心的距离的差值,和/或每个词向量的特征值的差值确定的;
针对情感词集中的每个情感词,基于该情感词与所述情感词集中第一预设数目情感词中的各情感词之间的相关度,计算得到该情感词的情感权值,所述情感权值用于衡量该情感词所表征的情感强度。
2.如权利要求1所述的方法,其特征在于,所述基于该情感词与所述情感词集中第一预设数目情感词中的各情感词之间的相关度,计算得到该情感词的情感权值,包括:
对该情感词与所述情感词集中第一预设数目情感词中的各情感词之间的相关度进行加权计算,得到该情感词的情感权值。
3.如权利要求1所述的方法,其特征在于,采用如下方式构建情感词集:
从预设平台获取语料;
对所述语料进行分词处理并将词转化为词向量进行表示,得到初始词集;
确定表征情感的情感种子词;
针对每个情感种子词,计算所述初始词集中的各词与该情感种子词之间的相关度,按照相关度从高到低的顺序选择第二预设数目的词构建情感词集。
4.如权利要求1所述的方法,其特征在于,在所述针对情感词集中的每个情感词,基于该情感词与所述情感词集中第一预设数目情感词中的各情感词之间的相关度,计算得到该情感词的情感权值之前,还包括如下步骤:
对情感词集中的情感词进行去重处理;
去除情感词集中的无用词。
5.如权利要求2所述的方法,其特征在于,所述对该情感词与所述情感词集中第一预设数目情感词中的各情感词之间的相关度进行加权计算,包括:
计算该情感词与所述情感词集中第一预设数目情感词中的各情感词之间的相关度之和的平均值。
6.一种情感词情感强度确定装置,其特征在于,该装置包括:
获取模块,用于获得预先生成的情感词集,其中,所述情感词集包括多个情感词,所述情感词集表现为词向量矩阵,每个情感词都以词向量的方式存在;
处理模块,用于计算所述情感词集中每两个情感词之间的相关度;针对情感词集中的每个情感词,基于该情感词与所述情感词集中第一预设数目情感词中的各情感词之间的相关度,计算得到该情感词的情感权值,所述情感权值用于衡量该情感词所表征的情感强度;其中,所述相关度是基于每两个情感词的词向量之间的距离,和/或每个词向量到词向量空间的中心的距离的差值,和/或每个词向量的特征值的差值确定的。
7.如权利要求6所述的装置,其特征在于,还包括:构建模块,所述构建模块用于:
从预设平台获取语料;
对所述语料进行分词处理并将词转化为词向量表示,得到初始词集;
确定表征情感的情感种子词;
针对每个情感种子词,计算所述初始词集中的各词与该情感种子词之间的相关度,按照相关度从高到低的顺序选择第二预设数目的词构建情感词集。
8.一种计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至5任一项所述的方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1至5任一项所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国信优易数据股份有限公司,未经国信优易数据股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810272426.0/1.html,转载请声明来源钻瓜专利网。