[发明专利]一种识别对话情感原因的方法及装置在审
申请号: | 202010040765.3 | 申请日: | 2020-01-15 |
公开(公告)号: | CN111241847A | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 蔡林;杨海军;徐倩;杨强 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F16/35;G06K9/62 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 宋正伟 |
地址: | 518027 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 对话 情感 原因 方法 装置 | ||
1.一种识别对话情感原因的方法,其特征在于,包括:
将对话中各句子进行分词,对分词后每个句子中各词语的词向量进行叠加,获得每个句子的句子向量;
将所述对话中各句子的句子向量输入聚类模型,得到所述各句子对应的各句子集;所述聚类模型是根据多个样本句子按照预设聚类算法训练获得的;
针对每个句子集,至少根据所述句子集中各句子的词语的词频确定所述句子集的主题词;
根据所述句子集的主题词与情感词库中各类情感词的语义相似度,确定出所述句子集的主题词在所述情感词库中存在映射的目标情感词;根据各句子集的目标情感词,确定所述对话的情感原因。
2.如权利要求1所述的方法,其特征在于,所述至少根据所述句子集中各句子的词语的词频确定所述句子集的主题词,包括:
将所述句子集中的各句子输入文档主题生成模型,得到所述句子集的主题词;所述文档主题生成模型是通过多个样本句子中的词语的词频训练得到的。
3.如权利要求1所述的方法,其特征在于,所述至少根据所述句子集中各句子的词语的词频确定所述句子集的主题词,包括:
根据所述句子集中每个句子中各词语的词向量,确定所述句子集中各词语之间的语义相似度;
确定所述句子集中的各相似词集;其中,每个相似词集中各词语的词向量之间的语义相似度均不小于第一语义相似度阈值;
针对每个相似词集,将所述相似词集中平均语义相似度不小于第二语义相似度阈值的词语作为所述相似词集的原始词;其中,每个词语的平均语义相似度为所述词语与所述相似词集中其它各词语的语义相似度确定的;
将各相似词集中词频之和不小于设定阈值的相似词集的原始词,作为所述句子集的主题词;所述相似词集的词频之和是为所述相似词集中各词语的词频之和。
4.如权利要求1所述的方法,其特征在于,所述根据所述句子集的主题词与情感词库中各类情感词的语义相似度,确定出所述句子集的主题词在所述情感词库中存在映射的目标情感词,包括:
将所述情感词库中与所述主题词的语义相似度不小于第三语义相似度阈值的情感词,确定为所述目标情感词;
所述根据各句子集的目标情感词,确定所述对话的情感原因,包括:
将所述各句子集的目标情感词中与对应的主题词的语义相似度最高的目标情感词确定为所述对话的情感原因。
5.如权利要求1-4任一所述的方法,其特征在于,按照以下方式,获得所述聚类模型:
根据所述多个样本句子,获取多个样本点;所述多个样本点中每个样本点与所述多个样本句子中的一个样本句子唯一映射;
针对所述多个样本点中每个样本点,执行迭代训练,直至所述多个样本点中的每个样本点确定有归属的簇或确定为噪声点;所述迭代训练为:若所述样本点未参与所述迭代训练,且所述样本点的预设邻域内包含的相邻样本点数量大于或等于预设数量阈值,则确定所述样本点为核心点,并建立所述核心点的簇,以及确定所述预设邻域内包含的相邻样本点归属于所述核心点的簇;若所述样本点未参与所述迭代训练,且所述样本点的预设邻域内包含的相邻样本点数量小于所述预设数量阈值,确定所述样本点为噪声点;
将所述多个样本点执行所述迭代训练得到的各核心点的簇,对应于所述聚类模型的类别,从而得到所述聚类模型。
6.如权利要求1-4任一所述的方法,其特征在于,还包括:
若确定所述句子集的主题词在所述情感词库中不存在映射的目标情感词,则将所述主题词新增至所述情感词库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010040765.3/1.html,转载请声明来源钻瓜专利网。