[发明专利]一种基于LSTM-CNN的高效舆情监测系统在审

专利信息
申请号: 202010637084.5 申请日: 2020-07-03
公开(公告)号: CN112069379A 公开(公告)日: 2020-12-11
发明(设计)人: 管亦铮;况丽娟;戴宪华 申请(专利权)人: 中山大学
主分类号: G06F16/951 分类号: G06F16/951;G06F16/9535;G06F16/35;G06F40/279;G06N3/04
代理公司: 暂无信息 代理人: 暂无信息
地址: 510275 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 lstm cnn 高效 舆情 监测 系统
【权利要求书】:

1.一种基于LSTM-CNN的高效舆情监测系统,其特征在于,不仅利用了经典的处理文本分类的卷积神经网络,加入长短期记忆网络,结合上下文语境,提高了分类结果的准确性。同时,采用多线程并行获取多个网站的相关信息,提高了系统效率。所述方法包括:

根据关键词爬取信息,使用WebDriver框架爬取指定网站的文本信息数据,子线程程序的作用是可同时对多个关键词进行爬取,多线程并行采集数据,减少等待时间;

每个子线程又包含多线程运行的5个爬虫程序,每个爬虫程序负责指定的10个网站,即将50个指定网站分为5个部分同时爬取,相当于将爬取时间缩短了5倍,提高了获取信息的效率;

使用gensim库中的word2vec模型,将经过预处理后的文本数据转化为张量形式,即词向量。这个模型可以为每个单词建模,输出一个唯一的向量,并表征词汇之间的相似度或者距离,并根据上下文的语境来推断出每个词的词向量;

将生成的词向量以时间序列的形式送入LSTM网络的encoder端,依次经过遗忘门、输入门、输出门来控制细胞状态,LSTM输出的词向量可以扩充为卷积对应的格式,通过卷积神经网络的输入层、隐藏层、输出层,经过多层卷积、非线性激活、最大池化后可以提取到更高维、更有效的特征。

2.根据权利要求所述的方法,其特征在于,所述获取信息部分,主要分为自动检测程序、并行子线程程序和多网站爬虫程序三个部分。间隔循环、不断检测数据库中是否有新的关键词输入,若没有,则保持此状态;若有,则先查找数据库中是否存在此关键词信息,并获取该关键词记录的日期区间,与所需日期区间进行比较。如果数据库中已有信息的日期区间包含所需日期区间或者仅包含一部分,则可直接获取已有信息,不必重复爬取;如果不包含,则启动子线程开始爬取数据。子线程程序的作用是在运行爬虫程序的同时可以继续检测,最多可对三个关键词同时爬取,每个子线程中又包含多线程运行的5个爬虫程序,每个爬虫程序负责10个新闻网站,即每部分爬虫程序里的某个新闻网站爬取完成之后,就进入下一个网站,直至各部分所有网站都完成爬取。

3.根据权利要求1或2所述的方法,其特征在于,根据所述获取信息的方法,避免了因重复爬取信息浪费资源的问题,此外,可以同时针对多个关键词、多个不同网站进行信息获取,减少了相互之间等待空闲的时间,提高了获取信息的速度。

4.所述方法还包括:由LSTM和CNN神经网络构成的自然语言处理模型,LSTM增强了其处理远距离依赖问题的能力,大大提升了循环神经网络处理长序列数据的能力,输出的词向量可以扩充为卷积对应的格式,通过CNN的输入层、隐藏层、输出层,经过多层卷积、非线性激活、最大池化后可以提取到更高维、更有效的特征;

训练模型,将已获取的文本数据做好正向为2、负向为1、中性为0的人工标注,标注量大小为20000条,人工标注量越大,越有利于模型的训练;按照3:1:1的比例划分为训练集、验证集、测试集,再将预处理后的文本数据转化为词向量的后送入LSTM-CNN神经网络入口,最后根据损失函数loss和预测准确率accuracy的数值调整、优化模型参数,直到得到最优解,模型训练成功并保存;

预测结果,将需要分析的文本数据从数据库中取出,经过预处理后,再转化为词向量的形式,送入已经训练好的模型入口,得到预测结果。

5.根据权利要求4所述的方法,其特征在于,所述方法不仅利用了经典短文本分类的卷积神经网络,可对其提取多种局部特征,进行组合抽象后得到更高的特征表示;结合长短期记忆网络,通过增加记忆及控制门的方式,增强了其处理远距离依赖问题的能力,使得对新闻、报道、评论等长文本数据的分类结果更加准确。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010637084.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top