[发明专利]基于LDA主题模型与分层神经网络的情感分类方法在审

申请号：	202010698706.5	申请日：	2020-07-20
公开（公告）号：	CN111949790A	公开（公告）日：	2020-11-17
发明（设计）人：	刘洪涛;钱启敏	申请（专利权）人：	重庆邮电大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/258;G06N3/04;G06N3/08
代理公司：	重庆市恒信知识产权代理有限公司 50102	代理人：	李金蓉
地址：	400065 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 lda 主题模型分层神经网络情感分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于LDA主题模型与分层神经网络的情感分类方法，其特征在于，包括以下步骤：

S1、将文档输入LDA主题模型获得文档的文档-主题分布和主题-词分布；

S2、将文档以标点符号划分为句子，以句子为单位进行分词，并将句中的词汇表示为词向量，输入到双向循环神经网络中，获取词汇的隐藏状态向量；

S3、在词汇层面，获取词级别的主题特征向量，结合词汇的隐藏状态向量，使用注意力机制对句子中的词汇进行加权，形成句子的向量表示；

S4、在句子层面，将句子向量输入到双向循环神经网络中，获得句子的隐藏状态向量后，使用注意力机制对文档中的句子进行加权，获取文档的向量表示。

2.根据权利要求1所述基于LDA主题模型与分层神经网络的情感分类方法，其特征在于：所述文档-主题分布和主题-词分布分别为：每篇文档分属K个主题的概率分布和每个主题下V个词汇的概率分布。

3.根据权利要求1或2所述基于LDA主题模型与分层神经网络的情感分类方法，其特征在于：所述LDA主题模型的处理过程为：

1)对于每一篇文档d＝1，…，D，采样一个文档-主题分布θ_d～Dir(α)；

2)对于每一个主题k＝1，…，K，采样一个主题-词汇分布β_k～Dir(η)；

3)对于文中的每一个词w＝1，…，V，采样一个主题标签Z_dv～Mult(θ_d)，在主题标签Z_dv的主题词汇分布下采样一个单词

其中Mult(.)是多项式分布，Dir(.)是Dirichlet分布，θ_d是任一文档d的主题分布，α是分布的超参数，是一个K维向量，K代表主题个数；β_k是任一主题K的词汇分布，η是分布的超参数，是一个V维向量，V代表数据集中所有文档中不重复的词的个数；文档-主题分布，主题-词汇分布是模型需要学习的参数，Z_dv是隐变量，W_dv是可观察到的变量，D是文档集中的文档数量。

4.根据权利要求1所述基于LDA主题模型与分层神经网络的情感分类方法，其特征在于：步骤2所述获取词汇的隐藏状态向量具体为，将文档的第i个句子的第t个单词的词向量w_it，传入到双向双向循环神经网络，得到包含上下文信息的隐藏状态向量，其过程如下表示：

其中，代表词汇的前向隐藏状态，代表词汇的后向隐藏状态，和均代表GRU单元，h_it代表词汇的隐藏状态向量，T代表第i个句子有T个词汇。

5.根据权利要求1所述基于LDA主题模型与分层神经网络的情感分类方法，其特征在于：所述步骤3具体包括：

S3.1、将LDA主题模型提取出的主题-词分布通过全连接层转化成低维主题嵌入e_k，得到与词汇隐藏状态向量相同的维数；

S3.2、针对句中的每个词，计算出词与每个主题之间的关联权重；

S3.3、计算出词级别的主题特征向量；

S3.4、结合词汇的隐藏状态向量，使用注意力机制对句子中的词汇进行加权，形成句子的向量表示。

6.根据权利要求1所述基于LDA主题模型与分层神经网络的情感分类方法，其特征在于：步骤4所述具体包括：

S4.1、文档的第i个句子向量为s_i，i∈[1,L]，传入到双向循环神经网络得到句子的隐藏状态向量h_i；

S4.2、使用注意力机制对文档中的句子进行加权，获取文档的向量表示v。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载