[发明专利]一种基于自然语言处理的舆情风险监测方法及系统有效
申请号: | 202011343545.4 | 申请日: | 2020-11-26 |
公开(公告)号: | CN112395539B | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 倪时龙 | 申请(专利权)人: | 格美安(北京)信息技术有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/35;G06F40/216;G06F40/284;G06K9/62;G06N3/04;G06Q50/00 |
代理公司: | 福州市景弘专利代理事务所(普通合伙) 35219 | 代理人: | 徐剑兵;林祥翔 |
地址: | 100176 北京市大*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自然语言 处理 舆情 风险 监测 方法 系统 | ||
本发明公开一种基于自然语言处理的舆情风险监测方法及系统,其中方法包括如下步骤:步骤一、获取互联网上的舆情信息,利用文本抽取模型对舆情信息进行数据结构化内容提取抽取,得到数据结构化内容;步骤二、利用文档主题生成模型对舆情信息生成文档主题;步骤三、利用基于自然语言处理的短文本立场判定模型对舆情信息进行立场判定;步骤四、利用舆情传播网络溯源分析模型对舆情信息进行溯源分析,按照一定的时间间隔和溯源分析结果对用户交互行为建立时序的网络图结构快照,所述网络图结构快照包括数据结构化内容、文档主题和立场判定。本发明可以实现舆情的风险监测和溯源分析。
技术领域
本发明涉及软件技术领域,尤其涉及一种基于自然语言处理的舆情风险监测方法及系统。
背景技术
舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。现有互联网背景下,舆情主要的表现形式即是文字。大家通过文字的形式发表自己的看法,形成舆情。由于互联网的便利性和开发性,存在一些错误的、误导性的舆情信息可能产生负面的社会影响,所以需要舆情的监测。现有的舆情检测有多种的技术实现方式,如现有的中国专利申请,申请号:201710773679.1,名称为“一种网络舆情监控方法及系统”,即提出一种通过自然语言模块来进行分析的舆情监控系统。但是该专利仅公开有自然语言处理模块,具体如何实现自然语言的处理,现有技术并没有给出详细实现过程。以及现有技术没法对舆情进行时间追溯。
发明内容
为此,需要提供一种基于自然语言处理的舆情风险监测方法及系统,解决在舆情风险监测中自然语言处理的实现技术方案和时间追溯。
为实现上述目的,本发明提供了一种基于自然语言处理的舆情风险监测方法,包括如下步骤:
步骤一、获取互联网上的舆情信息,利用文本抽取模型对舆情信息进行数据结构化内容提取抽取,得到数据结构化内容;
步骤二、利用文档主题生成模型对舆情信息生成文档主题;
步骤三、利用基于自然语言处理的短文本立场判定模型对舆情信息进行立场判定;
步骤四、利用舆情传播网络溯源分析模型对舆情信息进行溯源分析,按照一定的时间间隔和溯源分析结果对用户交互行为建立时序的网络图结构快照,所述网络图结构快照包括数据结构化内容、文档主题和立场判定。
进一步地,所述文本抽取模型的生成步骤包括如下:
步骤1:编写正则表达式抽取规则,实现从大量的语料中匹配出部分且准确的抽取对象;
步骤2:将步骤1中获得的抽取对象,随机选取出预设的比例数量,选取出的导入到“自动模式归纳”算法作为训练语料;
步骤3:利用步骤2选取出的训练语料,结合开源的“自动模式归纳”算法,构建“抽取模型”;
步骤4:利用步骤3的抽取模型,对步骤2随机选取后剩余的语料进行自动化抽取,并对抽取结果进行准确性判断;如果抽取模型的准确性尚未达到预设要求,则前往步骤1,编写更多的正则表达式,形成更多的“标注语料”,作为模型训练导入;如果抽取模型的准确性已经达到预设要求,则停止该过程,并将该模型作为文本抽取模型。
进一步地,所述步骤二包括如下步骤:
将舆情信息的事件相关数据流按照时间片进行分割,每个分片之间的数据有时间先后关系;
按照时间顺序,对每个分片用话题模型进行分析挖掘,而且每一个分片要利用到前一个时间片的学习结果作为先验知识,对参数进行初始化;
利用参数初始化后的话题模型对舆情信息生成文档主题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于格美安(北京)信息技术有限公司,未经格美安(北京)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011343545.4/2.html,转载请声明来源钻瓜专利网。