[发明专利]基于LDA主题模型与分层神经网络的情感分类方法在审
申请号: | 202010698706.5 | 申请日: | 2020-07-20 |
公开(公告)号: | CN111949790A | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 刘洪涛;钱启敏 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/258;G06N3/04;G06N3/08 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 李金蓉 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 lda 主题 模型 分层 神经网络 情感 分类 方法 | ||
本发明公开了一种基于LDA主题模型与分层神经网络的情感分类方法,包括:将文档输入LDA主题模型获得文档的文档‑主题分布和主题‑词分布;将文档以标点符号划分为句子,以句子为单位进行分词并将句中的词汇表示为词向量输入到双向循环神经网络中,获取词汇的隐藏状态向量;在词汇层面,使用注意力机制获取词级别的主题特征向量,结合词汇的隐藏状态向量,形成句子的向量表示;在句子层面,将句子向量输入到双向循环神经网络中,获得句子的隐藏状态向量后,使用注意力机制对文档中的句子进行加权,获取文档的向量表示。本发明增加了模型的领域适应能力,并充分利用文档的层次结构,分别在词汇和句子两层使用注意力机制,时序信息及显著信息,提高模型情感分类的准确度。
技术领域
本发明涉及自然语言处理中的情感分析领域,尤其是指一种基于LDA主题模型与分层神经网络的情感分类方法。
背景技术
随着互联网行业的快速发展,越来越多的人选择通过网络来表述自己的观点与情感,如何从海量数据中高效提取出有价值的信息是一个研究重点,情感分析研究对自然语言处理、管理科学、政治学、经济学和社会科学都有很大的价值。
情感分析结合文本数据的主题是一个重要研究课题,文档主题向量本质是表示文档的深层语义,是主题和语义的内在结合,抽取的文档主题向量可以广泛的应用于情感分析任务中,例如社交网络和新媒体的舆情分析,新闻热点的及时获取等。
当前的情感分析方法主要包括以下三类:基于语言规则的方法、基于传统机器学习的方法和基于深度神经网络的方法。近年来,随着互联网的发展和数据工程的发展,文本数据的体量急剧增大和语言表示的多元化,使得神经网络技术的优势逐渐明显。相比于基于规则的方法和传统机器学习的方法,深度神经网络由于其模型与函数的复杂性,在面对当今复杂多变的语言模型时,可以捕捉更全面,更深层的文本特征,及对文本有更好的理解能力,故在情感分析领域也可以达到更好的效果,因此使用神经网络的方法成为主流方法。
现有的基于深度神经网络的情感分析的研究中,主要的工作是将文本通过神经网络的embedding层训练并表示成向量或矩阵的形式,然后构建合适的深度神经网络模型进行深层特征的抽象,最后在神经网络模型的输出层利用激活函数进行分类概率的计算。这类深度学习的方法仅仅是将文本内容转换成数字向量作为模型的输入,并未考虑到文本数据所在的领域特殊性,也没有充分的利用文本的层次结构去挖掘出文本的信息。
发明内容
本发明的目的是为了克服现有方法模型的缺陷,针对缺乏对文本具体领域的关注和没有充分利用文档层次结构挖掘文档潜在信息的问题,提出一种新的基于LDA主题模型和分层神经网络的情感分类方法,可以合理使用文档主题特征的同时,又充分学习到文档所包含的潜在信息,提高模型的泛化能力和情感分析的准确度。
本发明的核心思想是:充分利用文档的主题信息和层次结构,得到更有利于情感分类的文档向量表示。为符合文档的层次结构,使用分层的神经网络模型,在词汇层融入由LDA主题模型提取出的主题信息,并在词汇和句子两层使用注意力机制提取文本不同位置,不同意义的词汇及句子的重要性,完成了主题信息的融入,也学习到了包含文档上下文的语义信息,时序信息及显著信息的文档向量。
鉴于此,本发明采用的技术方案是:基于LDA主题模型与分层神经网络的情感分类方法,包括以下步骤:
S1、将文档输入LDA主题模型获得文档的文档-主题分布和主题-词分布;
S2、将文档以标点符号划分为句子,以句子为单位进行分词,并将句中的词汇表示为词向量,输入到双向循环神经网络中,获取词汇的隐藏状态向量;
S3、在词汇层面,获取词级别的主题特征向量,结合词汇的隐藏状态向量,使用注意力机制对句子中的词汇进行加权,形成句子的向量表示;
S4、在句子层面,将句子向量输入到双向循环神经网络中,获得句子的隐藏状态向量后,使用注意力机制对文档中的句子进行加权,获取文档的向量表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010698706.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种隔离刀闸
- 下一篇:一种动态环境下融合边缘信息的稠密视觉里程计方法