[发明专利]一种基于深度学习的舆情数据分析模型在审
申请号: | 202010634923.8 | 申请日: | 2020-07-03 |
公开(公告)号: | CN111859955A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 况丽娟;管亦铮;戴宪华 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/284;G06F40/211;G06F40/216;G06F16/35;G06F16/901;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 舆情 数据 分析 模型 | ||
本发明涉及一种基于CNN‑LSTM的文本情感分析和word2vector的textrank摘要自动提取的多任务的文本分析方法,该方法包括获取海量待测网络文本数据,首先将待测网络文本数据经预处理之后输入LSTM‑CNN神经网络,LSTM‑CNN不仅利用了经典的文本序列处理方法长短期记忆网络,得到表征上下文的向量,CNN进一步提取到更高维、有效的特征,接着将特征送入softmax进行多分类,从而得到文本的情感正负向,其次结合基于词嵌入的textrank算法,将所输入的文本数据分割成句子构建图模型,计算句子之间的相似度,作为边的权值。通过计算句子得分,将得到的句子得分进行倒序排序,抽取重要度最高的几个句子作为候选文摘句。最后结合分析结果用报告的形式展示。这种多任务处理文本数据的模型使得舆情监测结果可以获得高准确率和高效率,还利用了两种神经网络训练提高了文本分析精度。
技术领域
本发明涉及网络舆情文本数据处理领域,尤其是一种基于CNN-LSTM的文本情感分析和word2vector的textrank摘要自动提取的多任务的文本数据分析方法。
背景技术
网络舆情是指民众通过常用的互联网交流渠道,如新闻网站、微博、知乎、豆瓣网等方式进行对社会热点话题进行讨论的一种网络方式,其主要有传播便捷、速度快等的特点。
在大数据时代,网络媒体已深入到人们的日常生活。舆情监测通过对互海量信息运用自动化工具抓取、情感分类、新闻专题关注,形成报告、图表等呈现趋势,达到对用户的舆情监测等。但现有的监测系统只是简单地对相关信息进行检索,难以及时发现舆论事件的发展趋势和热点话题,舆情数据处理效率低下。
深度神经网络在海量文本数据分析任务上表现优秀,循环神经网络可以很好地处理时间序列化的输入数据,卷积神经网络可以提取更多的特征,两者结合在处理复杂的大数据方面表现出强大的非线性能力。针对上述问题,可以利用深度学习进行文本数据分析,从而更智能、高效的完成此任务。
发明内容
针对上述问题及技术需求,提出了一种基于CNN-LSTM的文本情感分析和word2vector的textrank摘要自动提取的多任务的文本分析方法,该方法不仅利用了经典的文本序列处理方法长短期记忆网络(LSTM),卷积神经网络(CNN),以及结合基于词嵌入的textrank算法,从而实现了同时完成文本情感分析与摘要提取的多任务文本数据分析方法,挖掘海量数据生成有综合性的总结报告,提高了舆情数据处理效率。
本发明的技术方案如下:
一种基于CNN-LSTM的文本情感分析和word2vector的textrank摘要自动提取的多任务的文本分析方法,该方法不仅利用了经典的文本序列处理方法长短期记忆网络(LSTM),为提取到更高维、有效的特征多加了一个卷积神经网络(CNN),softmax分类器以及结合基于词嵌入的textrank图模型,方法包括:
使用一个用2G语料库大小的wiki百科词汇训练得到词嵌入模型。这个模型可以为每个词建模,输出一个唯一的向量,并表征词汇之间的相似度或者距离,并根据上下文的语境来推断出每个词的词向量。
将文本生成的向量以时间序列输入到LSTM的encoder端,利用隐藏层保存文本中长期的依赖信息,信息在LSTM中会经过遗忘门、输入门、输出门最终输出。
信息通过遗忘门的sigmoid决定丢弃的信息,通过输入门的sigmoid和tanh来决定更新值和候选值,通过输出门的sigmoid来得到初始输出,再用tanh将值变换到-1至1,最后与sigmoid的输出值一一相乘,获取模型最终的输出。利用LSTM对数据进行过滤、筛选和细胞状态更新,并防止梯度爆炸。
将LSTM输出的向量扩充为卷积对应的格式,经过CNN的卷积、池化提取到更高维、有效的特征再输入到softmax层进行分类并输出结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010634923.8/2.html,转载请声明来源钻瓜专利网。