[发明专利]文本情感分析方法和装置在审
申请号: | 201810105796.5 | 申请日: | 2018-02-02 |
公开(公告)号: | CN110134934A | 公开(公告)日: | 2019-08-16 |
发明(设计)人: | 张春荣 | 申请(专利权)人: | 普天信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 孙清然;王琦 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 情感分析 分词 目标词 文本 方法和装置 文本情感 词向量 相似度 词性 卷积神经网络 情感极性 分析 预设 标注 分段 词汇 申请 | ||
1.一种文本情感分析方法,其特征在于,包括:
a、获取需要进行情感分析的文本,并获取所述文本包含的分词;
b、对于每个所述分词,计算该分词在预设词典中的词向量,并根据该词向量,计算该分词与所述词典中其他词汇之间的相似度;
c、标注每个所述分词的词性,将指定词性的所述分词确定为候选的情感分析目标词;
d、利用候选的情感分析目标词的所述相似度,从所述候选的情感分析目标词中提取出所述文本对应的方面Aspect;
e、根据所述候选的情感分析目标词和所述方面,利用分段卷积神经网络对所述文本进行情感极性分析。
2.根据权利要求1所述的方法,其特征在于,所述获取需要进行情感分析的文本包括:
利用网页解析器对所述文本所在网页进行清洗和解析;将解析结果中的非文本信息删除,得到所述文本。
3.根据权利要求1所述的方法,其特征在于,所述获取所述文本包含的分词包括:
对所述文本按照完整句子进行分割;
对于所述分割得到的每个句子,利用预设的分词工具进行分词处理,得到构成该句子的分词。
4.根据权利要求1所述的方法,其特征在于,所述步骤b包括:
对于每个所述分词,利用Word2Vec的CBOW模型,计算该分词在所述词典中的词向量;通过计算余弦夹角,得到该分词与所述词典中其他词汇之间的相似度。
5.根据权利要求1所述的方法,其特征在于,所述指定词性包括:名词、动词、形容词和副词。
6.根据权利要求1所述的方法,其特征在于,所述步骤d包括:
从预设的种子方面词库中,获取所述文本所属领域对应的种子方面词;所述种子方面词库中的词包含在所述词典中;
对于每个所述候选的情感分析目标词,逐一将该目标词与每个所述种子方面词之间的所述相似度和预设的相似阈值进行比较,如果所述相似度大于所述相似阈值,则将对应的种子方面词,作为所述文本对应的方面。
7.根据权利要求6所述的方法,其特征在于,所述步骤a之后,所述步骤d之前进一步包括:
利用词频-逆文档频率TF-IDF算法,从所述分词中提取种子方面词;
将所提取出的种子方面词加入至所述种子方面词库中。
8.根据权利要求1所述的方法,其特征在于,所述步骤e包括:
利用所述候选的情感分析目标词,构建词序列H;将所述词序列H中的每个词作为基于注意力的卷积神经网络模型的一个输入状态,依次输入至所述卷积神经网络模型的卷积层;其中,H={h1,...,ht,...,hT},1≤t≤T;ht为词序列H中的第t个词,T为所述候选的情感分析目标词的数量;
所述卷积神经网络模型的卷积层利用随机初始化的上下文向量A,按照计算每个所述输入状态hx的权重at;按照构造所述文本的文本表示向量v,并输出至所述卷积神经网络模型的池化层;其中,et=Tanh(W·ht+b),W为模型中的权重,b为模型中的偏置,Tanh()为双曲正切函数;
所述卷积神经网络模型的池化层,采用分段池化的方式,对所述文本表示向量v进行池化处理,得到所述文本的特征向量,并输出至所述卷积神经网络模型的情感计算层;
所述卷积神经网络模型的情感计算层,将每个所述方面作为一个情感标签,根据所述文本的特征向量,对于每个情感标签,利用softmax分类器,构建该情感标签的得分向量,并按照将该得分向量转化为条件概率分布,其中,i=1,2,...,C,C表示情感方面标签的数目,pi(x)表示第i个情感方面标签的条件概率分布,xi表示第i个情感方面标签的得分向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普天信息技术有限公司,未经普天信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810105796.5/1.html,转载请声明来源钻瓜专利网。