[发明专利]基于情感词典和词概率分布的情感会话生成方法在审
申请号: | 201910025929.2 | 申请日: | 2019-01-11 |
公开(公告)号: | CN109800295A | 公开(公告)日: | 2019-05-24 |
发明(设计)人: | 马廷淮;杨慧敏 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36 |
代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 戴朝荣 |
地址: | 210044 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 句子 情感词 会话 单词 概率分布 情感词典 输入句子 通用词 嵌入 解码器 解码器框架 建立会话 情感表达 损失函数 状态计算 编码器 满意度 相似度 概率 预设 语法 平衡 | ||
1.一种基于情感词典和词概率分布的情感会话生成方法,其特征在于,所述方法包括:
S1:对生成句子中的单词进行情感词嵌入,包括利用具有3D情感空间的外部词典将所述单词转化为情感向量,再将转换生成的情感向量与传统词嵌入相结合以完成情感词嵌入;
S2:将从步骤S1中得到的情感词嵌入输入到编码器-解码器框架中,利用解码器的状态计算所述生成句子中下一个单词分别对应于情感词和通用词的生成概率;
S3:针对情感词和通用词的生成概率设置对应的权重,根据预设的规则将步骤S2中得到的情感词和通用词的生成概率进行连接,建立会话模型P(yt),得到生成句子中的下一个单词;
S4:计算输入句子和生成句子中已生成部分的情感相似度,采用情感损失函数对步骤S3中得到的会话模型P(yt)进行训练,以使生成的句子与输入句子的情感偏差小于设定偏差阈值。
2.根据权利要求1所述的基于情感词典和词概率分布的情感会话生成方法,其特征在于,步骤S1中,对生成句子中的单词进行情感词嵌入,利用具有3D情感空间的外部词典将所述单词转化为情感向量,再将转换生成的情感向量与传统词嵌入相结合以完成情感词嵌入的方法包括以下步骤:
S101:创建一包含有若干个情感词汇的外部词典,所述外部词典中的每个情感词汇被映射到一个三维实值的向量VAD中,分别为喜悦度V、强度A和支配度D;
S102:根据下述公式对生成句子中的单词进行情感投射:
其中,W2AV表示单词向情感向量的投射;l(w)表示单词w的词形还原;为中性向量,即单词w的喜悦度、强度和支配度均表示中性;
S103:将每个单词的W2AV嵌入与传统的词嵌入相连接以形成所有单词的情感词嵌入。
3.根据权利要求2所述的基于情感词典和词概率分布的情感会话生成方法,其特征在于,所述外部词典包含有13915个情感词汇。
4.根据权利要求2所述的基于情感词典和词概率分布的情感会话生成方法,其特征在于,所述喜悦度V的范围为分别对应于悲伤、无情感和喜悦;
所述强度A的范围为分别对应于低情感强度、中等情感强度和高情感强度;
所述支配度D的范围为分别对应于情感负支配度、情感无支配度以及情感正支配度;
所述中性向量
5.根据权利要求1所述的基于情感词典和词概率分布的情感会话生成方法,其特征在于,步骤S2中,将从步骤S1中得到的情感词嵌入输入到编码器-解码器框架中,利用解码器的状态计算所述生成句子中下一个单词分别对应于情感词和通用词的生成概率的方法包括以下步骤:
S201:将情感词嵌入输入到编码器-解码器框架中,计算出解码器状态St;
S202:将通用词汇表和解码器状态St相结合以计算通用词的生成概率,将情感词汇表和解码器状态St相结合以计算情感词的生成概率,其中,通用词汇表和情感词汇表无交集。
6.根据权利要求5所述的基于情感词典和词概率分布的情感会话生成方法,其特征在于,步骤S202中,根据下述公式以计算通用词和情感词的生成概率:
其中,Wg和We分别表示通用词和情感词;Pg和Pe分别表示通用词和情感词的生成概率;St表示解码器的状态;和为权重参数。
7.根据权利要求5所述的基于情感词典和词概率分布的情感会话生成方法,其特征在于,所述编码器和解码器均采用GRU。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910025929.2/1.html,转载请声明来源钻瓜专利网。