[发明专利]一种基于自然语言处理的舆情风险监测方法及系统有效

申请号：	202011343545.4	申请日：	2020-11-26
公开（公告）号：	CN112395539B	公开（公告）日：	2021-12-17
发明（设计）人：	倪时龙	申请（专利权）人：	格美安（北京）信息技术有限公司
主分类号：	G06F16/958	分类号：	G06F16/958;G06F16/35;G06F40/216;G06F40/284;G06K9/62;G06N3/04;G06Q50/00
代理公司：	福州市景弘专利代理事务所(普通合伙) 35219	代理人：	徐剑兵;林祥翔
地址：	100176 北京市大***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于自然语言处理舆情风险监测方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于自然语言处理的舆情风险监测方法，其特征在于，包括如下步骤：

步骤一、获取互联网上的舆情信息，利用文本抽取模型对舆情信息进行数据结构化内容提取抽取，得到数据结构化内容；

步骤二、利用文档主题生成模型对舆情信息生成文档主题；

步骤三、利用基于自然语言处理的短文本立场判定模型对舆情信息进行立场判定；

步骤四、利用舆情传播网络溯源分析模型对舆情信息进行溯源分析，按照一定的时间间隔和溯源分析结果对用户交互行为建立时序的网络图结构快照，所述网络图结构快照包括数据结构化内容、文档主题和立场判定；所述文本抽取模型的生成步骤包括如下：

步骤1：编写正则表达式抽取规则，实现从大量的语料中匹配出部分且准确的抽取对象；

步骤2：将步骤1中获得的抽取对象，随机选取出预设的比例数量，选取出的导入到“自动模式归纳”算法作为训练语料；

步骤3：利用步骤2选取出的训练语料，结合开源的“自动模式归纳”算法，构建“抽取模型”；

步骤4：利用步骤3的抽取模型，对步骤2随机选取后剩余的语料进行自动化抽取，并对抽取结果进行准确性判断；如果抽取模型的准确性尚未达到预设要求，则前往步骤1，编写更多的正则表达式，形成更多的“标注语料”，作为模型训练导入；如果抽取模型的准确性已经达到预设要求，则停止该步骤4，并将该模型作为文本抽取模型。

2.根据权利要求1所述的一种基于自然语言处理的舆情风险监测方法，其特征在于，所述步骤二包括如下步骤：

将舆情信息的事件相关数据流按照时间片进行分割，每个分片之间的数据有时间先后关系；

按照时间顺序，对每个分片用话题模型进行分析挖掘，而且每一个分片要利用到前一个时间片的学习结果作为先验知识，对参数进行初始化；

利用参数初始化后的话题模型对舆情信息生成文档主题。

3.根据权利要求2所述的一种基于自然语言处理的舆情风险监测方法，其特征在于，利用吉布斯采样方法对所述话题模型进行推理和参数求解。

4.根据权利要求1所述的一种基于自然语言处理的舆情风险监测方法，其特征在于，所述步骤三包括如下步骤：

采用卷积神经网络模型来训练立场判定专有的嵌入词向量；

采用LSTM模型和所述嵌入词向量训练立场判定分类模型；

利用立场判定模型对舆情信息进行立场判定。

5.根据权利要求1所述的一种基于自然语言处理的舆情风险监测方法，其特征在于，所述步骤四包括如下步骤：

按照时间段对舆情文档集做水平划分，即同一个时间段内的舆情文档划分到同一个集合，根据产生舆情文档的频度确定时间间隔；

对同一个集合的舆情文档进行预处理，包括：分词、去停用词和标签提取；