[发明专利]基于卷积神经网络的文本情感分析方法有效
申请号: | 201910514145.6 | 申请日: | 2019-06-14 |
公开(公告)号: | CN110362819B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 李保印;刘涛;张宝玉;王坤 | 申请(专利权)人: | 中电万维信息技术有限责任公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06F40/216;G06F18/241;G06N3/0464;G06N3/08 |
代理公司: | 兰州嘉诺知识产权代理事务所(普通合伙) 62202 | 代理人: | 郭海 |
地址: | 730000 甘肃省兰州市城关*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 卷积 神经网络 文本 情感 分析 方法 | ||
1.基于卷积神经网络的文本情感分析方法,其他特征在于包括如下步骤:
A、中科院ICTCLAS分词系统将文本句子分成不同的词;
B、通过Word2vec工具将词进行向量化;
C、通过Hownet情感词集合对词性标注为积极情感词、消极情感词、否定词、程度副词;
D、利用词向量和词性标注组合拼接作为卷积神经网络的输入识别文本情感;
所述步骤D中卷积神经网络识别:采用测试数据训练卷积神经网络,当卷积神经网络的学习正确率达到90%时作为后期文本情感分析的识别网络;测试数据为COAE2014数据集中6000条带有极性的数据,其中正面情绪2864条、负面情绪3136条;
所述步骤C中将词性映射为多维向量,将句子的词向量和词性标注组合拼接作为卷积神经网络的输入;Hownet情感词集合中对50220个汉语的进行了描述,采用0和1代码表示的一个多维的连续值向量,多维向量上限是16维向量;
所述步骤A中设立一个分词有效库Effective_participle,通过COAE2014数据集中6000条文本为样本,将文本分别采用中科院ICTCLAS分词系统进行分词,每个分词组合形成分词有效库Effective_participle, 分词有效库Effective_participle的集合作为词性库Libray,所有分词Effective_participle出现的个数的总和为分词总数SUM;
所述步骤C中当待情感分析的文本中的分词不属于分词有效库Effective_participle的分词,在对该条文本进行情感分析时,把不属于分词库里面的分词一并归纳到分词有效库Effective_participle里;
所述步骤C中词向量进行为积极情感词、消极情感词、否定词、程度副词在情感分析中保留,对于其他词性的词直接进行删除处理;积极情感词记为Pos、消极情感词记为Neg、程度副词记为Adv、否定词记为Inver;
对于不同的词性标注通过向量化,将每一种词性标注映射为一个多维的连续值向量,/其中为第i个词性向量,k为词性向量维度;鉴于文本只关注积极情感词、消极情感词、否定词、程度副词,在情感识别的时候,先选取分词有效库Effective_participle里面的分词进行词性标注向量,再选择词性向量为积极情感词、消极情感词、否定词、程度副词的分词作为最终输入分词Input_word; Pos表示为 [0 0]、Neg表示为 [0 1]、Adv表示为[1 0]、否定词表示为 [1 1]。
2.根据权利要求1所述的基于卷积神经网络的文本情感分析方法,其特征在于所述步骤C中统计文本中的每个分词有效库Effective_participle在COAE2014数据集中6000条文本分词总数SUM里面占的比例;当占比大于10%时没有实际情感分析的作用。
3.根据权利要求1所述的基于卷积神经网络的文本情感分析方法,其特征在于所述步骤C中通过对分析有效库Effective_participle里面的分词进行词向量转换;将每一个分词映射为一个多维的连续值向量,可以得到整个数据集词集合的词向量矩阵 ,其中m为每个词的向量维度,/数据集的词条集合大小;对于长度为n的句子s
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电万维信息技术有限责任公司,未经中电万维信息技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910514145.6/1.html,转载请声明来源钻瓜专利网。