[发明专利]一种舆情监测方法和舆情监测系统在审
申请号: | 202210047264.7 | 申请日: | 2022-01-17 |
公开(公告)号: | CN115017302A | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 李响;杨国武;李蒍韦;侯柏成 | 申请(专利权)人: | 黄河水利职业技术学院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/9535;G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京正华智诚专利代理事务所(普通合伙) 11870 | 代理人: | 杨浩林 |
地址: | 475004*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 舆情 监测 方法 系统 | ||
1.一种舆情监测方法,其特征在于,所述舆情监测方法包括:
S1:获取用户输入的关键词;
S2:对所述关键词进行关键词扩充操作,得到关键词库;
S3:对所述关键词库中的敏感词进行提取操作,得到敏感词库;
S4:采集所述关键词库和所述敏感词库的最终舆情数据;
S5:对所述最终舆情数据进行预处理操作,得到预处理结果;
S6:对所述预处理结果进行舆情分析处理,得到分析结果;
S7:根据所述分析结果,得到舆情监测结果。
2.根据权利要求1所述的舆情监测方法,其特征在于,所述步骤S2包括:
利用所述关键词在相关数据源中进行搜索,得到与所述关键词相匹配的多条数据信息;
根据所有所述数据信息,得到所述关键词库。
3.根据权利要求1所述的舆情监测方法,其特征在于,所述步骤S3包括:
利用分词工具包对所述关键词库中所有数据进行分词操作,得到分词数据库;
将所有所述分词数据信息转换为词向量信息;
根据所述词向量信息,利用BiLSTM模型提取所述分词数据库中的负面词;
将所述负面词作为敏感词,得到所述敏感词库。
4.根据权利要求1所述的舆情监测方法,其特征在于,所述步骤S4包括:
S41:配置数据采集表达式,并将所述关键词库和所述敏感词库合并为组合词库;
S42:利用所述组合词库检索相关舆情新闻列表;
S43:将所述相关舆情新闻列表的当前新闻页的网页地址加入待采集列表;
S44:从待采集列表中提取所述网页地址,访问所述当前新闻页的相关信息以形成初始舆情数据;
S45:若所述初始舆情数据同时满足完整性和唯一性,进入步骤S46,否则,进入步骤S47;
S46:将所述初始舆情数据作为所述最终舆情数据输出;
S47:判断所述当前新闻页是否为所述相关舆情新闻列表的最后一页,若是,返回步骤S46,否则,返回步骤S43。
5.根据权利要求1所述的舆情监测方法,其特征在于,所述步骤S5包括:
对所述最终舆情数据进行分批处理,得到多批舆情数据;
利用正则表达式对每批所述舆情数据进行特殊字符和无用字符剔除处理,得到处理后的最终舆情数据;
对所述处理后的最终舆情数据进行数据特征提取操作,得到特征提取结果;
将所述特征提取结果作为所述预处理结果输出。
6.根据权利要求1-5中任意一项所述的舆情监测方法,其特征在于,所述舆情分析处理包括:一般统计性分析、关键词提取、热度计算和多模态情感分析。
7.根据权利要求6所述的舆情监测方法,其特征在于,所述热度计算包括单个所述数据源的热度指数计算和多个所述数据源的热度指数计算,多个所述数据源的热度指数计算公式为:
其中,H为热度值,Hi为第i个相关数据源的所有最终舆情数据的热度指数综合,Wi为该相关数据源的热度权重;
单个所述相关数据源的热度指数x的计算公式为:
其中,E为各相关数据源的用户关注指数,Ts表示相关舆情新闻的新鲜程度且Ts=A-B,A为发布时间,B为采集时间,T代表的是3天一个热度周期内的总秒数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于黄河水利职业技术学院,未经黄河水利职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210047264.7/1.html,转载请声明来源钻瓜专利网。