[发明专利]一种基于自然语言处理的舆情风险监测方法及系统有效
申请号: | 202011343545.4 | 申请日: | 2020-11-26 |
公开(公告)号: | CN112395539B | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 倪时龙 | 申请(专利权)人: | 格美安(北京)信息技术有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/35;G06F40/216;G06F40/284;G06K9/62;G06N3/04;G06Q50/00 |
代理公司: | 福州市景弘专利代理事务所(普通合伙) 35219 | 代理人: | 徐剑兵;林祥翔 |
地址: | 100176 北京市大*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自然语言 处理 舆情 风险 监测 方法 系统 | ||
1.一种基于自然语言处理的舆情风险监测方法,其特征在于,包括如下步骤:
步骤一、获取互联网上的舆情信息,利用文本抽取模型对舆情信息进行数据结构化内容提取抽取,得到数据结构化内容;
步骤二、利用文档主题生成模型对舆情信息生成文档主题;
步骤三、利用基于自然语言处理的短文本立场判定模型对舆情信息进行立场判定;
步骤四、利用舆情传播网络溯源分析模型对舆情信息进行溯源分析,按照一定的时间间隔和溯源分析结果对用户交互行为建立时序的网络图结构快照,所述网络图结构快照包括数据结构化内容、文档主题和立场判定;所述文本抽取模型的生成步骤包括如下:
步骤1:编写正则表达式抽取规则,实现从大量的语料中匹配出部分且准确的抽取对象;
步骤2:将步骤1中获得的抽取对象,随机选取出预设的比例数量,选取出的导入到“自动模式归纳”算法作为训练语料;
步骤3:利用步骤2选取出的训练语料,结合开源的“自动模式归纳”算法,构建“抽取模型”;
步骤4:利用步骤3的抽取模型,对步骤2随机选取后剩余的语料进行自动化抽取,并对抽取结果进行准确性判断;如果抽取模型的准确性尚未达到预设要求,则前往步骤1,编写更多的正则表达式,形成更多的“标注语料”,作为模型训练导入;如果抽取模型的准确性已经达到预设要求,则停止该步骤4,并将该模型作为文本抽取模型。
2.根据权利要求1所述的一种基于自然语言处理的舆情风险监测方法,其特征在于,所述步骤二包括如下步骤:
将舆情信息的事件相关数据流按照时间片进行分割,每个分片之间的数据有时间先后关系;
按照时间顺序,对每个分片用话题模型进行分析挖掘,而且每一个分片要利用到前一个时间片的学习结果作为先验知识,对参数进行初始化;
利用参数初始化后的话题模型对舆情信息生成文档主题。
3.根据权利要求2所述的一种基于自然语言处理的舆情风险监测方法,其特征在于,利用吉布斯采样方法对所述话题模型进行推理和参数求解。
4.根据权利要求1所述的一种基于自然语言处理的舆情风险监测方法,其特征在于,所述步骤三包括如下步骤:
采用卷积神经网络模型来训练立场判定专有的嵌入词向量;
采用LSTM模型和所述嵌入词向量训练立场判定分类模型;
利用立场判定模型对舆情信息进行立场判定。
5.根据权利要求1所述的一种基于自然语言处理的舆情风险监测方法,其特征在于,所述步骤四包括如下步骤:
按照时间段对舆情文档集做水平划分,即同一个时间段内的舆情文档划分到同一个集合,根据产生舆情文档的频度确定时间间隔;
对同一个集合的舆情文档进行预处理,包括:分词、去停用词和标签提取;
采用高频词选取的方法对预处理后的舆情文档抽取文档特征,降低文档的表示维度;
基于LSH局部敏感哈希函数来实现,找到高相似度的舆情文本;
对于高相似度的舆情文本,再次利用基于余弦距离度量的最邻近聚类算法发现高度相似的舆情,根据高度相似舆情在网络中传播的路径,构建社交网络时序快照,按照一定的时间间隔对用户交互行为建立时序的网络图结构快照。
6.一种基于自然语言处理的舆情风险监测系统,其特征在于:包括存储器、处理器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1到5任意一项所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于格美安(北京)信息技术有限公司,未经格美安(北京)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011343545.4/1.html,转载请声明来源钻瓜专利网。