[发明专利]一种基于有监督情感文本和词向量的情感词典构建方法有效

申请号：	201810473308.6	申请日：	2018-05-17
公开（公告）号：	CN108647191B	公开（公告）日：	2021-06-25
发明（设计）人：	张雷;张文哲;李昀;姚懿荣;谢俊元	申请（专利权）人：	南京大学
主分类号：	G06F40/117	分类号：	G06F40/117;G06F40/242;G06F40/289;G06F16/33;G06N3/08
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	陈建和
地址：	210093 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于监督情感文本向量词典构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于有监督情感文本和词向量的情感词典构建方法，其特征在于，包括步骤：

(1)获取文本数据集D，文本数据集D中包括具有正面情感标记的正面情感文本和具有负面情感标记的负面情感文本；

(2)对文本数据集中的文本进行预处理；构建词汇表V，将预处理后的文本数据集中首次出现的词语逐个填入词汇表V中；

(3)采用SO-PMI方法计算词汇表V中各个词语的情感倾向值，根据情感倾向值确定相应词语的情感标记：

其中，lable_w表示词语w的感情标记，SO-PMI(w)表示词语w的情感倾向值；

(4)构建具有词语级别监督的改进的skip-gram模型，改进的skip-gram模型以D中的词语为输入数据，预测词语的上下文和情感标记；计算预测上下文时的损失函数loss_context，以及预测情感标记时的损失函数loss_word；

loss_context与loss_word的表达式分别为：

其中，w_t表示词语，w_t∈D，表示词语w_t的情感标记；{w_t-k，…，w_t-1，w_t+1，…，w_t+k}表示预测出的上下文词语集合，集合中包括预测出的词语w_t的前k个词和后k个词；p(w_t+j|w_t)表示词w_t+j被预测为w_t的上下文的概率，p(pos|w_t)表示w_t被预测为具有正面情感标记的概率，p(neg|w_t)表示w_t被预测为具有负面情感标记的概率；

(5)构建一个卷积神经网络模型作为文本级监督模型，文本级监督模型以文本数据集D中的文本为输入数据，预测文本的感情标记；计算预测出的文本的情感标记与文本实际感情标记之间的损失函数loss_doc：

其中，d_i表示文本，d_i∈D；表示d_i的情感标签；p(pos|d_i)表示d_i被预测为具有正面情感标记的概率，p(neg|d_i)表示d_i被预测为具有负面情感标记的概率；

(6)设置联合损失函数：

loss＝α₁·loss_context+α₂·loss_doc+α₃·loss_word

式中，α₁、α₂、α₃分别为loss_context、loss_doc、loss_word的权重系数；

(7)以文本数据集D、词语的情感标记lable_w、文本的情感标记为输入数据，利用反向传播算法训练联合损失函数，得到具有情感嵌入的词向量；

(8)根据步骤(7)获得的具有情感嵌入的词向量构建词关系图G；

(9)选取词关系图G中的部分词语作为种子词，为种子词标注情感标签，情感标签包括褒义、贬义和中性；然后使用标签传播算法将种子词的情感标签在关系图G中传播，生成情感词典。

2.根据权利要求1所述的一种基于有监督情感文本和词向量的情感词典构建方法，其特征在于，所述情感倾向值的计算公式为：

其中，SO-PMI(w)表示词语w的情感倾向值，pos表示正面情感文本，neg表示负面情感文本，p(w|pos)表示词语w在正面情感文本中出现的概率，p(w|neg)表示词语w在负面情感文本中出现的概率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810473308.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种语音识别文本插入笔录文档的方法、装置及系统
下一篇：一种用自然语言处理技术生成虚拟现实工作脚本的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于有监督情感文本和词向量的情感词典构建方法有效

专利文献下载