[发明专利]一种基于有监督情感文本和词向量的情感词典构建方法有效

专利信息
申请号: 201810473308.6 申请日: 2018-05-17
公开(公告)号: CN108647191B 公开(公告)日: 2021-06-25
发明(设计)人: 张雷;张文哲;李昀;姚懿荣;谢俊元 申请(专利权)人: 南京大学
主分类号: G06F40/117 分类号: G06F40/117;G06F40/242;G06F40/289;G06F16/33;G06N3/08
代理公司: 南京瑞弘专利商标事务所(普通合伙) 32249 代理人: 陈建和
地址: 210093 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出一种基于有监督情感文本和词向量的情感词典构建方法,包括数据处理阶段、词向量情感嵌入阶段、情感词典生成阶段共三个阶段。本方法使用神经网络生成词向量,将情感嵌入到词向量内部,挖掘词与词之间的内在联系,然后构建词关系图,使用标签传播算法传播情感标签,自动构建特定领域的情感词典。通过本发明解决了基于人工和基于知识库的方法所构造的情感词典在处理特定领域的情感分析任务时不准确的问题。
搜索关键词: 一种 基于 监督 情感 文本 向量 词典 构建 方法
【主权项】:
1.一种基于有监督情感文本和词向量的情感词典构建方法,其特征在于,包括步骤:(1)获取文本数据集D,文本数据集D中包括具有正面情感标记的正面情感文本和具有负面情感标记的负面情感文本;(2)对文本数据集中的文本进行预处理;构建词汇表V,将预处理后的文本数据集中首次出现的词语逐个填入词汇表V中;(3)采用SO‑PMI方法计算词汇表V中各个词语的情感倾向值,根据情感倾向值确定相应词语的情感标记:其中,lablew表示词语w感情标记,SO‑PMI(w)表示词语w的情感倾向值;(4)构建具有词语级别监督的改进的skip‑gram模型,改进的skip‑gram模型以D中的词语为输入数据,预测词语的上下文和情感标记;计算预测上下文时的损失函数losscontext,以及预测情感标记时的损失函数lossword;losscontext与lossword的表达式分别为:其中,wt表示词语,wt∈D;{wt‑k,…,wt‑1,wt+1,…,wt+k}表示预测出的上下文词语集合,集合中包括预测出的词语wt的前k个词和后k个词;p(wt+j|wt)表示词wt+j被预测为wt的上下文的概率,p(pos|wt)表示wt被预测为具有正面情感标记的概率,p(neg|wt)表示wt被预测为具有负面情感标记的概率;(5)构建一个卷积神经网络模型作为文本级监督模型,文本级监督模型以文本数据集D中的文本为输入数据,预测文本的感情标记;计算预测出的文本的情感标记与文本实际感情标记之间的损失函数lossdoc:其中,di表示文本,di∈D;表示di的情感标签;p(pos|di)表示di被预测为具有正面情感标记的概率,p(neg|di)表示di被预测为具有负面情感标记的概率;(6)设置联合损失函数:loss=α1·losscontext+α2·lossdoc+α3·lossword式中,α1、α2、α3分别为losscontext、lossdoc、lossword的权重系数;(7)以文本数据集D、词语的情感标记lablew、文本的情感标记为输入数据,利用反向传播算法训练联合损失函数,得到具有情感嵌入的词向量;(8)根据步骤(7)获得的具有情感嵌入的词向量构建词关系图G;(9)选取词关系图G中的部分词语作为种子词,为种子词标注情感标签,情感标签包括褒义、贬义和中性;然后使用标签传播算法将种子词的情感标签在关系图G中传播,生成情感词典。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810473308.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top