[发明专利]一种基于遮蔽语言模型的两阶段情感迁移方法和系统在审

专利信息
申请号: 202010018333.2 申请日: 2020-01-08
公开(公告)号: CN113095063A 公开(公告)日: 2021-07-09
发明(设计)人: 虎嵩林;张滔;伍星;臧良俊;韩冀中 申请(专利权)人: 中国科学院信息工程研究所
主分类号: G06F40/216 分类号: G06F40/216;G06F40/279;G06K9/62
代理公司: 北京君尚知识产权代理有限公司 11200 代理人: 邱晓锋
地址: 100093 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 遮蔽 语言 模型 阶段 情感 迁移 方法 系统
【说明书】:

发明涉及一种基于遮蔽语言模型的两阶段情感迁移方法和系统。该方法包括:利用基于注意力机制的情感分类器和基于相对频率的融合方法,计算语料库中的所有词的得分,根据得分构建情感标记词的词库;利用情感标记词的词库对语料进行遮蔽处理,得到遮蔽语料;将遮蔽语料输入遮蔽语言模型中,利用遮蔽语言模型在遮蔽语料的遮蔽位置进行填空,得到迁移语料;将迁移语料输入预训练的情感分类器中,输出情感置信度分值,并使用预训练的情感分类器的梯度信号来优化遮蔽语言模型。本发明通过显式分割情感迁移任务,先找出句子中的情感信息进行遮蔽,再填入能代表目标情感信息的情感词,通过分解任务降低难度,能够达到更好的效果。

技术领域

本发明涉及深度学习与自然语言处理技术,具体涉及基于遮蔽语言模型的两阶段情感迁移方法和系统。

背景技术

近年来,互联网信息技术高速发展,新闻网站、社交媒体每天都会产生海量的文本数据。文本数据包含着各种各样的风格,比如写作风格、主题风格、情感极性等。对文本风格进行迁移,即在不改变文本主体内容的前提下,重新组织文本让文本有着具体的风格属性,可以用于生成标签文本数据、更好地理解文本数据。情感迁移作为风格迁移的一个例子,目标在于转写文本的情感极性,能够运用于海量情感数据,如餐饮点评、商品评价,已经成为了一项极具实用价值、受到关注的研究课题。

情感迁移主要面临两个挑战,一是缺乏平行语料,二是情感信息和文本内容信息的杂糅。缺乏平行语料使得模型难以实现对海量数据的监督学习,信息杂糅使得情感和内容难以分割从而对情感信息进行替换。情感迁移逻辑上分为两个步骤,一是确定文本中的情感信息部分,二是将情感信息替换为期望的带有目标情感的文本表达。现有方法对这两个步骤进行统一建模,即希望模型能够在识别情感信息的同时进行替换。具体来说,现有方法通常使用序列到序列的建模方法,将文本先编码为一个特征向量,通过施加不同的限制来让该特征向量只包含内容信息,在此基础上将情感属性也编码为一个特征向量,两个向量拼接后执行解码过程得到文本。由于缺乏平行语料,上述模型过程通常使用无监督学习完成,导致模型难以学习到较好的特征编码方式,难以生成令人满意的文本。

发明内容

针对上述技术问题,本发明提出一种基于遮蔽语言模型的两阶段情感迁移方法和系统,利用先遮蔽再填空的方式,借助预训练的遮蔽语言模型,来解决信息杂糅、平行语料缺乏的问题。

为了解决上述技术问题,本发明的技术方案如下:

一种基于遮蔽语言模型的两阶段情感迁移方法,包括如下步骤:

利用基于注意力机制的情感分类器和基于相对频率的融合方法,计算语料库中的所有词的得分,根据得分构建情感标记词的词库;

利用情感标记词的词库,对语料进行遮蔽处理,得到遮蔽语料;

将遮蔽语料输入遮蔽语言模型中,利用遮蔽语言模型在遮蔽语料的遮蔽位置进行填空,得到迁移语料;

将迁移语料输入预训练的情感分类器中,输出情感置信度分值,并使用预训练的情感分类器的梯度信号来优化遮蔽语言模型。

进一步地,先找出不同情感极性所对应的情感标记词,构成每个情感极性的情感标记词库,包括:

预训练基于注意力机制的情感分类器,包括:使用word2vec在大规模非标注语料上得到传统词向量,把词向量表征的句子输入到双向长短时记忆网络(BiLSTM)来学习句子层级的上下文信息表示,对该表示使用注意力机制来提取不同词的位置特征的重要性权重,使用权重和上下文信息得到加权的文本信息表示,输入到softmax层进行类别概率预测;

使用情感分类器对语料中的所有词组进行打分,即把词组输入到情感分类器中,将softmax层输出的类别置信度当做该词组的情感得分;

统计语料中所有词组在不同情感极性语料中的频率,进而计算相对频率;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010018333.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top