[发明专利]一种基于遮蔽语言模型的两阶段情感迁移方法和系统在审
申请号: | 202010018333.2 | 申请日: | 2020-01-08 |
公开(公告)号: | CN113095063A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 虎嵩林;张滔;伍星;臧良俊;韩冀中 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/279;G06K9/62 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 遮蔽 语言 模型 阶段 情感 迁移 方法 系统 | ||
本发明涉及一种基于遮蔽语言模型的两阶段情感迁移方法和系统。该方法包括:利用基于注意力机制的情感分类器和基于相对频率的融合方法,计算语料库中的所有词的得分,根据得分构建情感标记词的词库;利用情感标记词的词库对语料进行遮蔽处理,得到遮蔽语料;将遮蔽语料输入遮蔽语言模型中,利用遮蔽语言模型在遮蔽语料的遮蔽位置进行填空,得到迁移语料;将迁移语料输入预训练的情感分类器中,输出情感置信度分值,并使用预训练的情感分类器的梯度信号来优化遮蔽语言模型。本发明通过显式分割情感迁移任务,先找出句子中的情感信息进行遮蔽,再填入能代表目标情感信息的情感词,通过分解任务降低难度,能够达到更好的效果。
技术领域
本发明涉及深度学习与自然语言处理技术,具体涉及基于遮蔽语言模型的两阶段情感迁移方法和系统。
背景技术
近年来,互联网信息技术高速发展,新闻网站、社交媒体每天都会产生海量的文本数据。文本数据包含着各种各样的风格,比如写作风格、主题风格、情感极性等。对文本风格进行迁移,即在不改变文本主体内容的前提下,重新组织文本让文本有着具体的风格属性,可以用于生成标签文本数据、更好地理解文本数据。情感迁移作为风格迁移的一个例子,目标在于转写文本的情感极性,能够运用于海量情感数据,如餐饮点评、商品评价,已经成为了一项极具实用价值、受到关注的研究课题。
情感迁移主要面临两个挑战,一是缺乏平行语料,二是情感信息和文本内容信息的杂糅。缺乏平行语料使得模型难以实现对海量数据的监督学习,信息杂糅使得情感和内容难以分割从而对情感信息进行替换。情感迁移逻辑上分为两个步骤,一是确定文本中的情感信息部分,二是将情感信息替换为期望的带有目标情感的文本表达。现有方法对这两个步骤进行统一建模,即希望模型能够在识别情感信息的同时进行替换。具体来说,现有方法通常使用序列到序列的建模方法,将文本先编码为一个特征向量,通过施加不同的限制来让该特征向量只包含内容信息,在此基础上将情感属性也编码为一个特征向量,两个向量拼接后执行解码过程得到文本。由于缺乏平行语料,上述模型过程通常使用无监督学习完成,导致模型难以学习到较好的特征编码方式,难以生成令人满意的文本。
发明内容
针对上述技术问题,本发明提出一种基于遮蔽语言模型的两阶段情感迁移方法和系统,利用先遮蔽再填空的方式,借助预训练的遮蔽语言模型,来解决信息杂糅、平行语料缺乏的问题。
为了解决上述技术问题,本发明的技术方案如下:
一种基于遮蔽语言模型的两阶段情感迁移方法,包括如下步骤:
利用基于注意力机制的情感分类器和基于相对频率的融合方法,计算语料库中的所有词的得分,根据得分构建情感标记词的词库;
利用情感标记词的词库,对语料进行遮蔽处理,得到遮蔽语料;
将遮蔽语料输入遮蔽语言模型中,利用遮蔽语言模型在遮蔽语料的遮蔽位置进行填空,得到迁移语料;
将迁移语料输入预训练的情感分类器中,输出情感置信度分值,并使用预训练的情感分类器的梯度信号来优化遮蔽语言模型。
进一步地,先找出不同情感极性所对应的情感标记词,构成每个情感极性的情感标记词库,包括:
预训练基于注意力机制的情感分类器,包括:使用word2vec在大规模非标注语料上得到传统词向量,把词向量表征的句子输入到双向长短时记忆网络(BiLSTM)来学习句子层级的上下文信息表示,对该表示使用注意力机制来提取不同词的位置特征的重要性权重,使用权重和上下文信息得到加权的文本信息表示,输入到softmax层进行类别概率预测;
使用情感分类器对语料中的所有词组进行打分,即把词组输入到情感分类器中,将softmax层输出的类别置信度当做该词组的情感得分;
统计语料中所有词组在不同情感极性语料中的频率,进而计算相对频率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010018333.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:访问控制方法、装置、设备和系统
- 下一篇:一种无人驾驶智能扫地车自动清洁机构