[发明专利]一种基于LSTM-CNN的高效舆情监测系统在审
申请号: | 202010637084.5 | 申请日: | 2020-07-03 |
公开(公告)号: | CN112069379A | 公开(公告)日: | 2020-12-11 |
发明(设计)人: | 管亦铮;况丽娟;戴宪华 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06F16/35;G06F40/279;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lstm cnn 高效 舆情 监测 系统 | ||
本发明提出了一种基于LSTM‑CNN的高效舆情监测系统,涉及互联网信息采集技术、自然语言处理技术和数据库存储技术,该系统不仅利用了经典的处理文本分类的卷积神经网络,加入长短期记忆网络,结合上下文语境,提高了分类结果的准确性;同时,采用多线程并行获取多个网站的相关信息,提高了系统效率。首先,间隔循环、不断检测数据库中是否有新的关键词输入,判断数据库中是否已存在相关信息,决定下一步爬取操作。爬取结束后,将预处理得到的词向量以时间序列的形式送入LSTM网络的encoder端,依次经过遗忘门、输入门、输出门来控制细胞状态,最终输出可以扩充为卷积对应的格式,经过CNN多层卷积、非线性激活、最大池化后可以提取到更高维、更有效的特征。
技术领域
本发明涉及自然语言处理领域,尤其是一种基于LSTM-CNN神经网络的高效舆情监测系统。
背景技术
舆情监测是指针对现实生活中某些热点问题所持的有较强影响力、倾向性的言论和观点,应用互联网信息采集技术、自然语言处理技术和数据库存储技术,对海量信息进行自动抓取、自动分类、主题监测、专题聚焦,实现用户的网络舆情监测和新闻专题追踪等信息需求,并形成简报、报告、图表等分析结果。
卷积神经网络通常用来处理具有类似网络拓扑结构的数据,自然语言则视为一维的词序列,卷积神经网络可对其提取多种局部特征,进行组合抽象后得到更高的特征表示。对于一般的短文本分类问题,简单的卷积网络即可达到很高的准确率,但在舆情监测的应用中,大量的新闻、报道、评论等通常是长篇幅的文本数据,这将会影响最终的分类结果。为了解决这一问题,加入长短期记忆网络,通过增加记忆及控制门的方式,增强了其处理远距离依赖问题的能力,使得分类结果更加准确。
此外,在获取互联网上的海量信息时,根据输入的关键词,自动采集指定网站(可达几十个,几百个,甚至几千个)与所给关键词相关的信息。随着网站数量的不断增加,获取时间也会相应增加,影响系统效率。针对这一问题,加入多线程并行处理,并在数据库中设置时间标签,减少重复爬取的工作量,使信息获取更迅速、更高效,从而提高整个系统的效率。
发明内容
针对上述问题及技术需求,提出了一种基于LSTM-CNN神经网络的情感分类方法和多线程数据采集方法,该方法不仅利用了经典的处理文本分类的卷积神经网络,加入长短期记忆网络,结合上下文语境,提高了分类结果的准确性。同时,采用多线程并行获取多个网站的相关信息,提高了系统效率。
本发明的技术方案如下:
一种基于LSTM-CNN的高效舆情监测系统,该系统包括互联网海量信息的获取部分和基于LSTM-CNN神经网络的情感分类部分,方法包括:
根据关键词爬取信息,使用WebDriver框架爬取指定网站的文本信息数据,子线程程序的作用是可同时对多个关键词进行爬取,多线程并行采集数据,减少等待时间;
每个子线程又包含多线程运行的5个爬虫程序,每个爬虫程序负责指定的10个网站,即将50个指定网站分为5个部分同时爬取,相当于将爬取时间缩短了5倍,提高了获取信息的效率;
开始爬取时,首先根据输入的关键词判断数据库中是否已存在相关信息,若不存在,则通过selenium模拟打开浏览器,进入对应网站后搜索关键词,依次点开搜索结果的各条链接,根据xpath匹配原则,获取标题、网址、内容、日期等信息,并存入数据库中;
若存在,下面比较数据库中最新数据的日期与所需数据的日期,若数据库中最新数据的日期晚于所需数据的日期,则可跳过爬取过程,直接选取数据库中已有的数据,避免重复爬取;若早于所需数据的日期,则可缩小爬取范围,同样减少重复爬取的工作量;
由于计算机只认识数字,并不能直接识别文本数据,因此需要将输入的文本数据转换成指定维度的向量矩阵便于计算机处理,即词嵌入;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010637084.5/2.html,转载请声明来源钻瓜专利网。