[发明专利]一种基于有监督情感文本和词向量的情感词典构建方法有效
申请号: | 201810473308.6 | 申请日: | 2018-05-17 |
公开(公告)号: | CN108647191B | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 张雷;张文哲;李昀;姚懿荣;谢俊元 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F40/242;G06F40/289;G06F16/33;G06N3/08 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 情感 文本 向量 词典 构建 方法 | ||
1.一种基于有监督情感文本和词向量的情感词典构建方法,其特征在于,包括步骤:
(1)获取文本数据集D,文本数据集D中包括具有正面情感标记的正面情感文本和具有负面情感标记的负面情感文本;
(2)对文本数据集中的文本进行预处理;构建词汇表V,将预处理后的文本数据集中首次出现的词语逐个填入词汇表V中;
(3)采用SO-PMI方法计算词汇表V中各个词语的情感倾向值,根据情感倾向值确定相应词语的情感标记:
其中,lablew表示词语w的感情标记,SO-PMI(w)表示词语w的情感倾向值;
(4)构建具有词语级别监督的改进的skip-gram模型,改进的skip-gram模型以D中的词语为输入数据,预测词语的上下文和情感标记;计算预测上下文时的损失函数losscontext,以及预测情感标记时的损失函数lossword;
losscontext与lossword的表达式分别为:
其中,wt表示词语,wt∈D,表示词语wt的情感 标记;{wt-k,…,wt-1,wt+1,…,wt+k}表示预测出的上下文词语集合,集合中包括预测出的词语wt的前k个词和后k个词;p(wt+j|wt)表示词wt+j被预测为wt的上下文的概率,p(pos|wt)表示wt被预测为具有正面情感标记的概率,p(neg|wt)表示wt被预测为具有负面情感标记的概率;
(5)构建一个卷积神经网络模型作为文本级监督模型,文本级监督模型以文本数据集D中的文本为输入数据,预测文本的感情标记;计算预测出的文本的情感标记与文本实际感情标记之间的损失函数lossdoc:
其中,di表示文本,di∈D;表示di的情感标签;p(pos|di)表示di被预测为具有正面情感标记的概率,p(neg|di)表示di被预测为具有负面情感标记的概率;
(6)设置联合损失函数:
loss=α1·losscontext+α2·lossdoc+α3·lossword
式中,α1、α2、α3分别为losscontext、lossdoc、lossword的权重系数;
(7)以文本数据集D、词语的情感标记lablew、文本的情感标记为输入数据,利用反向传播算法训练联合损失函数,得到具有情感嵌入的词向量;
(8)根据步骤(7)获得的具有情感嵌入的词向量构建词关系图G;
(9)选取词关系图G中的部分词语作为种子词,为种子词标注情感标签,情感标签包括褒义、贬义和中性;然后使用标签传播算法将种子词的情感标签在关系图G中传播,生成情感词典。
2.根据权利要求1所述的一种基于有监督情感文本和词向量的情感词典构建方法,其特征在于,所述情感倾向值的计算公式为:
其中,SO-PMI(w)表示词语w的情感倾向值,pos表示正面情感文本,neg表示负面情感文本,p(w|pos)表示词语w在正面情感文本中出现的概率,p(w|neg)表示词语w在负面情感文本中出现的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810473308.6/1.html,转载请声明来源钻瓜专利网。