[发明专利]一种基于深度学习和特征融合的文本情感分类方法在审
申请号: | 201911003328.8 | 申请日: | 2019-10-21 |
公开(公告)号: | CN110750648A | 公开(公告)日: | 2020-02-04 |
发明(设计)人: | 李传艺;葛季栋;孔力;冯奕;周筱羽;骆斌 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档特征 文本情感分类 词向量 文档 向量 拼接 句子 学习 随机森林分类器 神经网络模型 神经网络学习 层次特征 基础模型 情感类别 特征融合 文本表示 向量表示 向量序列 情感词 神经网 字序列 采样 词性 段尾 整合 表情 文本 上层 预测 优化 | ||
1.一种基于深度学习和特征融合的文本情感分类方法,其特征在于包含以下步骤:
步骤(1)语料预处理;
步骤(2)向量预训练;
步骤(3)对情感词选取环境特定的情感词向量;
步骤(4)以多种特征作为输入,获得单句特征;
步骤(5)以单句特征序列作为输入,获得文档特征;
步骤(6)分别输出单句情感类别和文档情感类别。
2.根据权利要求1所述的一种基于深度学习和特征融合的文本情感分类方法,其特征在于步骤(1)中语料预处理,具体子步骤包括:
步骤(1.1)通过匹配文本中的“[”和“]”符号找出所有的表情符,人工标注若干典型表情符;
步骤(1.2)对文本进行分句、分词、词性标注和去除停用词;
步骤(1.3)统计文本词性分布,筛选出最高频的50个词性。
3.根据权利要求1所述的一种基于深度学习和特征融合的文本情感分类方法,其特征在于步骤(2)中向量预训练,包括使用正态分布采样表情符的向量表示和最高频的50个词性的向量表示,使用一个大规模的中文新闻语料库,调用word2vec工具为每一个词训练出100维的词向量和为每一个汉字训练出100维的字向量,对于情感词汇,分别训练积极语境下和消极语境下的两种情感词向量。
4.根据权利要求1所述的一种基于深度学习和特征融合的文本情感分类方法,其特征在于步骤(3)中对情感词选取环境特定的情感词向量,具体子步骤包括:
步骤(3.1)根据情感词表,判断是否为情感词以及对应的词汇情感类别;
步骤(3.2)对于非情感词直接使用普通词向量;
步骤(3.3)对于情感词,检查其前n大小的窗口中是否包含奇数个否定词,满足条件则认为该情感词处于否定环境中;
步骤(3.4)对于积极情感词,如果处于否定环境中,则选择它在消极语料中训练得到的情感词向量,否则选择在积极语境下训练得到的情感词向量,同样对于消极情感词,如果处于否定环境中,则选择它在积极语料中训练得到的情感词向量,否则选择在消极语境下训练得到的情感词向量。
5.根据权利要求1所述的一种基于深度学习和特征融合的文本情感分类方法,其特征在于步骤(4)中以多种特征作为输入,获得单句特征。具体子步骤包括:
步骤(4.1)确定词语级别输入特征。针对非情感词和情感词分别按照前一步的原则选取对应的预训练词向量,与对应的词性向量进行拼接,其中低频词性向量取零向量。然后将单句中包含的典型表情符向量取平均,每一个词向量与词性向量的拼接和表情符向量相乘,得到的向量序列即为单句的输入特征序列;
步骤(4.2)使用一个神经网络(如循环神经网络RNN结合注意力机制attention,卷积神经网络CNN)作为基础模型,对单句的输入向量序列进行特征提取,得到单句基于词语的特征表示;
步骤(4.3)直接以字向量序列作为作为输入,使用一个神经网络进行特征提取,得到单句基于字的特征表示;
步骤(4.4)将基于词语的特征表示和基于字的特征表示拼接,即得到单句最终的特征表示。
6.根据权利要求1所述的一种基于深度学习和特征融合的文本情感分类技术,其特征在于步骤(5)中以单句特征序列作为输入,获得文档特征。具体子步骤包括:
步骤(5.1)将单句的特征向量序列输入到一个神经网络,进行特征提取,得到的特征向量称为基于神经网络的文档特征;
步骤(5.2)选择段首、段尾以及包含了总结词的句子特征,求平均,称为基于规则的文档特征;
步骤(5.3)将称为基于规则的文档特征和基于规则的文档特征进行拼接,即可得到文档最终的特征表示。
7.根据权利要求1所述的一种基于深度学习和特征融合的文本情感分类方法,其特征在于步骤(6)分别输出单句情感类别和文档情感类别。以前面学习到的向量表示作为特征,情感类别(主观/客观、积极/消极/中性)作为类别标签,训练一个随机森林分类器。分类的效果采用准确率和宏平均进行评估。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911003328.8/1.html,转载请声明来源钻瓜专利网。