[发明专利]面向特定社会群体的网络舆情主题发现及趋势预测方法在审
申请号: | 202011260902.0 | 申请日: | 2020-11-12 |
公开(公告)号: | CN112364164A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 郁云 | 申请(专利权)人: | 南京信息职业技术学院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06Q10/04;G06F40/30;G06F40/289;G06F17/18;G06K9/62 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 张华蒙 |
地址: | 210023 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 特定 社会群体 网络 舆情 主题 发现 趋势 预测 方法 | ||
面向特定社会群体的网络舆情主题发现及趋势预测方法,属于自然语言处理技术领域,首先将收集的面向特定社会人群的网络舆情文档通过文本预处理后,输入到舆情主题发现模型进行主题发现和文档主题分类,而后由领域专家人工对分主题的文档进行情感极性人工标注,再基于预训练中文语义理解模型,实现对舆情文档的情感极性分类;最后对历史舆情文档集进行时间序列分析,输出舆情发展趋势预测结果。本发明实现了对网络舆情文档的主题自动发现,极大提高了主题对文档的舆论内容和情感倾向的覆盖范围;充分利用上下文信息,提高了模型对训练文本的利用效率,适合广泛应用于针对各类网络舆论主题的,面向各特定社会群体的网络舆情分析预测场景。
技术领域
本发明属于自然语言处理技术领域,具体涉及面向特定社会群体的网络舆情主题发现及趋势预测方法。
背景技术
网络舆情是网民对自己关心或与自身利益紧密相关的公共事务所持有的多种态度、意见的总和。随着新媒体时代的到来,网络舆情成为社会舆情越加重要的组成部分。而由于来自不同社会群体网民认知、需求不一样,导致网络舆情中利益群体多元化,不同社会群体的网民存在不同的行为偏好。这一特性使得网络舆情分析成为政府研究特定社会群体思想动态发展趋势的一种可行的技术手段。而研究特定社会群体思想动态可以为统战和维护社会稳定等目标服务。
经典的文本主题及情感分类模型的主要实现思想是首先通过文档向量空间模型提取待分析文档中针对人工给定主题的特征向量,然后通过聚类、分类算法实现针对不同主题的文档主题相关性分类。而后利用人工建立的情感词典与文档特征词语进行匹配实现文档的情感倾向分类(积极、消极、中立)。
这类方法在应用于网络舆情分析时存在两方面的问题。一方面,网络文本存在着词汇丰富,传播快,情感倾向变化快的特点,使得人工建立的主题在信息内容、情感倾向覆盖面,已经对特定人群舆情特征刻画的精准度方面均存在明显缺陷,需要研究面向网络舆情的主题发现方法,实现通过对网络文本资料中词汇、主题的分布规律分析,实现新的相关主题的自动发现,实现对舆论内容和情感倾向范围的全覆盖。另一方面,在利用传统的文档特征向量以及人工情感词典进行文本分类时,忽略了文档上下文特征,只能利用文档中词语的特征而无法利用句子及段落的特征,往往导致分类精度的降低以及泛化能力的低下。
针对第一个问题,研究通过基于先验概率模型的主题生成模型,建立主题-文档以及主题-关键词之间的概率分布关系,生产符合先验概率分布的新主题,成为实现网络舆情主题发现的一种可行手段。
针对第二个问题,随着深度学习技术在自然语言处理领域的应用取得重大突破,基于深度学习的能利用文档上下文信息的文本情感分类模型(如ELMo以及BERT等)不断涌现,随着这些模型日益发展完善,利用这类模型实现网络舆情分析成为兼顾效率和泛化能力的选择。
现有的文本主题及情感分类模型基于人工主题精选及人工情感词典,在信息内容和情感倾向覆盖面低,无法实现面向特定社会人群的宽覆盖面的主题的自动发现;传统的基于文档特征向量以及人工情感词典的文本分类算法,无法利用文档上下文信息,导致分类精度的降低以及泛化能力的低下。
发明内容
发明目的:为解决现有技术中的问题,本发明提供面一种面向特定社会群体的网络舆情主题发现及趋势预测方法,面向各特定社会群体的网络舆情分析预测场景。
技术方案:为实现上述发明目的,本发明采用如下技术方案:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息职业技术学院,未经南京信息职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011260902.0/2.html,转载请声明来源钻瓜专利网。