[发明专利]一种基于有监督情感文本和词向量的情感词典构建方法有效
申请号: | 201810473308.6 | 申请日: | 2018-05-17 |
公开(公告)号: | CN108647191B | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 张雷;张文哲;李昀;姚懿荣;谢俊元 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F40/242;G06F40/289;G06F16/33;G06N3/08 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种基于有监督情感文本和词向量的情感词典构建方法,包括数据处理阶段、词向量情感嵌入阶段、情感词典生成阶段共三个阶段。本方法使用神经网络生成词向量,将情感嵌入到词向量内部,挖掘词与词之间的内在联系,然后构建词关系图,使用标签传播算法传播情感标签,自动构建特定领域的情感词典。通过本发明解决了基于人工和基于知识库的方法所构造的情感词典在处理特定领域的情感分析任务时不准确的问题。 | ||
搜索关键词: | 一种 基于 监督 情感 文本 向量 词典 构建 方法 | ||
【主权项】:
1.一种基于有监督情感文本和词向量的情感词典构建方法,其特征在于,包括步骤:(1)获取文本数据集D,文本数据集D中包括具有正面情感标记的正面情感文本和具有负面情感标记的负面情感文本;(2)对文本数据集中的文本进行预处理;构建词汇表V,将预处理后的文本数据集中首次出现的词语逐个填入词汇表V中;(3)采用SO‑PMI方法计算词汇表V中各个词语的情感倾向值,根据情感倾向值确定相应词语的情感标记:其中,lablew表示词语w感情标记,SO‑PMI(w)表示词语w的情感倾向值;(4)构建具有词语级别监督的改进的skip‑gram模型,改进的skip‑gram模型以D中的词语为输入数据,预测词语的上下文和情感标记;计算预测上下文时的损失函数losscontext,以及预测情感标记时的损失函数lossword;losscontext与lossword的表达式分别为:其中,wt表示词语,wt∈D;{wt‑k,…,wt‑1,wt+1,…,wt+k}表示预测出的上下文词语集合,集合中包括预测出的词语wt的前k个词和后k个词;p(wt+j|wt)表示词wt+j被预测为wt的上下文的概率,p(pos|wt)表示wt被预测为具有正面情感标记的概率,p(neg|wt)表示wt被预测为具有负面情感标记的概率;(5)构建一个卷积神经网络模型作为文本级监督模型,文本级监督模型以文本数据集D中的文本为输入数据,预测文本的感情标记;计算预测出的文本的情感标记与文本实际感情标记之间的损失函数lossdoc:其中,di表示文本,di∈D;表示di的情感标签;p(pos|di)表示di被预测为具有正面情感标记的概率,p(neg|di)表示di被预测为具有负面情感标记的概率;(6)设置联合损失函数:loss=α1·losscontext+α2·lossdoc+α3·lossword式中,α1、α2、α3分别为losscontext、lossdoc、lossword的权重系数;(7)以文本数据集D、词语的情感标记lablew、文本的情感标记为输入数据,利用反向传播算法训练联合损失函数,得到具有情感嵌入的词向量;(8)根据步骤(7)获得的具有情感嵌入的词向量构建词关系图G;(9)选取词关系图G中的部分词语作为种子词,为种子词标注情感标签,情感标签包括褒义、贬义和中性;然后使用标签传播算法将种子词的情感标签在关系图G中传播,生成情感词典。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810473308.6/,转载请声明来源钻瓜专利网。