[发明专利]面向特定社会群体的网络舆情主题发现及趋势预测方法在审
申请号: | 202011260902.0 | 申请日: | 2020-11-12 |
公开(公告)号: | CN112364164A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 郁云 | 申请(专利权)人: | 南京信息职业技术学院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06Q10/04;G06F40/30;G06F40/289;G06F17/18;G06K9/62 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 张华蒙 |
地址: | 210023 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 特定 社会群体 网络 舆情 主题 发现 趋势 预测 方法 | ||
1.面向特定社会群体的网络舆情主题发现及趋势预测方法,其特征在于:
首先将收集的面向特定社会人群的网络舆情文档通过中文分词、去除停用词、低频词预处理后,输入到基于隐狄利克雷分配算法的舆情主题发现模型;
根据文档规模确定的主题数,输出文档-主题概率分布以及主题-词概率分布;而后通过设定文档-主题概率分布及文档-主题概率分布阈值,对文档进行主题分类,再对分主题的文档进行情感极性人工标注,形成舆情分析文档标注训练集;
然后将标注训练集输入到预训练中文语义理解模型进行情感极性分类训练,输出情感极性训练模型;
利用情感极性训练模型对带时标的历史舆情文档集进行分主题情感极性分类;最后对已分类文档集输入时间序列模型进行分主题的时间序列分析,最终输出分主题舆情发展趋势预测结果。
2.根据权利要求1所述的面向特定社会群体的网络舆情主题发现及趋势预测方法,其特征在于:包括如下步骤:
步骤1,将收集的面向特定社会人群的网络舆情文档集合Wg取子集通过中文分词、去除停用词、低频词文本预处理,形成训练文档集W;将W输入到基于隐狄利克雷分配算法的舆情主题发现模型,根据文档规模M确定的主题数K,设定LDA算法的文本-主题先验分布超参数α和主题-词先验分布超参数β,最终输出针对训练文档集合W的文档-主题概率分布矩阵θ以及主题-词概率分布矩阵Φ;
步骤2,利用步骤1训练好的LDA模型,对网络舆情文档集合Wg中所有文档按K个主题进行分类;
步骤3,在Wg中选择部分文档作为训练集Wt,由领域专家人工对分主题的文档进行情感极性人工标注,形成舆情分析文档标注训练集Wann;然后将标注训练集Wann输入到经过预训练的中文语义理解模型进行情感极性分类训练,输出情感极性训练模型;再利用情感极性训练模型对分主题的文档集Wg中所有文档进行情感极性分类;
步骤4,对已分类文档集输入时间序列模型ARMA进行分主题的时间序列分析,最终输出分主题舆情发展趋势预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息职业技术学院,未经南京信息职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011260902.0/1.html,转载请声明来源钻瓜专利网。