[发明专利]基于LDA主题模型与分层神经网络的情感分类方法在审
申请号: | 202010698706.5 | 申请日: | 2020-07-20 |
公开(公告)号: | CN111949790A | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 刘洪涛;钱启敏 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/258;G06N3/04;G06N3/08 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 李金蓉 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 lda 主题 模型 分层 神经网络 情感 分类 方法 | ||
1.基于LDA主题模型与分层神经网络的情感分类方法,其特征在于,包括以下步骤:
S1、将文档输入LDA主题模型获得文档的文档-主题分布和主题-词分布;
S2、将文档以标点符号划分为句子,以句子为单位进行分词,并将句中的词汇表示为词向量,输入到双向循环神经网络中,获取词汇的隐藏状态向量;
S3、在词汇层面,获取词级别的主题特征向量,结合词汇的隐藏状态向量,使用注意力机制对句子中的词汇进行加权,形成句子的向量表示;
S4、在句子层面,将句子向量输入到双向循环神经网络中,获得句子的隐藏状态向量后,使用注意力机制对文档中的句子进行加权,获取文档的向量表示。
2.根据权利要求1所述基于LDA主题模型与分层神经网络的情感分类方法,其特征在于:所述文档-主题分布和主题-词分布分别为:每篇文档分属K个主题的概率分布和每个主题下V个词汇的概率分布。
3.根据权利要求1或2所述基于LDA主题模型与分层神经网络的情感分类方法,其特征在于:所述LDA主题模型的处理过程为:
1)对于每一篇文档d=1,…,D,采样一个文档-主题分布θd~Dir(α);
2)对于每一个主题k=1,…,K,采样一个主题-词汇分布βk~Dir(η);
3)对于文中的每一个词w=1,…,V,采样一个主题标签Zdv~Mult(θd),在主题标签Zdv的主题词汇分布下采样一个单词
其中Mult(.)是多项式分布,Dir(.)是Dirichlet分布,θd是任一文档d的主题分布,α是分布的超参数,是一个K维向量,K代表主题个数;βk是任一主题K的词汇分布,η是分布的超参数,是一个V维向量,V代表数据集中所有文档中不重复的词的个数;文档-主题分布,主题-词汇分布是模型需要学习的参数,Zdv是隐变量,Wdv是可观察到的变量,D是文档集中的文档数量。
4.根据权利要求1所述基于LDA主题模型与分层神经网络的情感分类方法,其特征在于:步骤2所述获取词汇的隐藏状态向量具体为,将文档的第i个句子的第t个单词的词向量wit,传入到双向双向循环神经网络,得到包含上下文信息的隐藏状态向量,其过程如下表示:
其中,代表词汇的前向隐藏状态,代表词汇的后向隐藏状态,和均代表GRU单元,hit代表词汇的隐藏状态向量,T代表第i个句子有T个词汇。
5.根据权利要求1所述基于LDA主题模型与分层神经网络的情感分类方法,其特征在于:所述步骤3具体包括:
S3.1、将LDA主题模型提取出的主题-词分布通过全连接层转化成低维主题嵌入ek,得到与词汇隐藏状态向量相同的维数;
S3.2、针对句中的每个词,计算出词与每个主题之间的关联权重;
S3.3、计算出词级别的主题特征向量;
S3.4、结合词汇的隐藏状态向量,使用注意力机制对句子中的词汇进行加权,形成句子的向量表示。
6.根据权利要求1所述基于LDA主题模型与分层神经网络的情感分类方法,其特征在于:步骤4所述具体包括:
S4.1、文档的第i个句子向量为si,i∈[1,L],传入到双向循环神经网络得到句子的隐藏状态向量hi;
S4.2、使用注意力机制对文档中的句子进行加权,获取文档的向量表示v。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010698706.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种隔离刀闸
- 下一篇:一种动态环境下融合边缘信息的稠密视觉里程计方法