[发明专利]一种基于深度表征技术和三支决策的句子情感分类方法在审
申请号: | 202011143024.4 | 申请日: | 2020-10-23 |
公开(公告)号: | CN112364162A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 王磊;臧小滨;车春立;王颖 | 申请(专利权)人: | 北京计算机技术及应用研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 中国兵器工业集团公司专利中心 11011 | 代理人: | 张然 |
地址: | 100854*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 表征 技术 决策 句子 情感 分类 方法 | ||
本发明涉及一种本发明一种基于深度表征技术和三支决策的句子情感分类方法,其中,包括:(1)进行句子预处理,删除句子中的标点符号,对句子进行中文分词;(2)将中文分词后的词语序列输入到深度学习训练模型,生成句子词向量矩阵;(3)将深度学习训练模型中生成的词向量矩阵输入三支决策分类器,从而得到模型预测的情感分类结果。本发明可以依据以往的判断来预测新的情感句子的判断结果,在社交媒体评论的情感分类方面有广泛应用。
技术领域
本发明涉及计算机社交技术,特别涉及一种基于深度表征技术和三支决策的句子情感分类方法。
背景技术
句子情感分析,即针对语句的情感倾向性分析,是对带有情感色彩的主观性句子进行分析、处理、归纳和推理的过程。随着论坛、博客和推特等社交媒体的发展,人类拥有了海量的情绪化数据,情感分析技术扮演着越来越重要的角色。句子情感分类是自然语言处理的一项重要工作,可以用于社交媒体评论,利用技术提高评论情感分类的准确率,对于理解社交媒体评论的意图至关重要。
随着情感语句的表达形式越来越丰富,虽然利用机器学习可以进行句子情感分类,但是机器学习在实体概念和实体关系上识别能力单一,表达能力偏弱。在实体概念上存在一词多义的问题(例如,对于苹果的语义,一方面是水果,一方面是苹果公司),这样的歧义表达会对情感分析造成误差。在实体上下文关系上,机器学习无法联系上下文来判断读者的真实情感(例如,“你真是可以啊!”“你真的可以!”,两句表达的真实情感是完全不同的,可是机器学习的训练结果是相同的)。利用深度学习训练模型可以很好地解决这类一词多义和上下文无法联系的问题。
当通过深度学习训练模型后,需要判断词向量矩阵的真实情感,原来的训练模型(如支持向量机和贝叶斯等)使用的都是二分类方法,而真实的情感是分为三类的,有“积极”、“中性”、“消极”,所以使用三支决策的分类能力,表达句子的真实情感显的至关重要。
因此,迫切需要进一步利用深度学习的情感信息分析能力和三支决策的分类能力,在满足社交媒体评论情感分类的同时,解决一词多义和上下文关系表达不准确的问题。本发明正是为满足这个现实需求而产生的。
发明内容
本发明的目的在于提供一种基于深度表征技术和三支决策的句子情感分类方法,用于解决一词多义和上下文关系表达不准确的问题。
本发明一种基于深度表征技术和三支决策的句子情感分类方法,其中,包括:(1)进行句子预处理,删除句子中的标点符号,对句子进行中文分词;(2)将中文分词后的词语序列输入到深度学习训练模型,生成句子词向量矩阵;(3)将深度学习训练模型中生成的词向量矩阵输入三支决策分类器,从而得到模型预测的情感分类结果。
根据本发明的基于深度表征技术和三支决策的句子情感分类方法的一实施例,其中,对句子进行中文分词包括:利用spacy中文分词工具,将句子切分为词语序列,经过分词得到的结果,并表示成词语序列以及词语序列公式。
根据本发明的基于深度表征技术和三支决策的句子情感分类方法的一实施例,其中,生成句子词向量矩阵包括:采用BERT深度学习模型,规定词向量维度为100维,首先把每个单词{W1,W2,……,Wn}都通过BERT嵌入层投射成单词向量{x1,x2,……,x100},然后将单词向量{x1,x2,……,x100}输入到BERT的双向编码器,得到词向量矩阵Re;BERT训练模型中生成的词向量矩阵Re,Re的维度即为评论句子中词语的数目。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所,未经北京计算机技术及应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011143024.4/2.html,转载请声明来源钻瓜专利网。