[发明专利]一种多维度网络舆情大数据对比分析方法有效
申请号: | 201910022183.X | 申请日: | 2019-01-10 |
公开(公告)号: | CN109783815B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 黄翼;吴硕贤 | 申请(专利权)人: | 华南理工大学;覃思建筑工程技术咨询(广州)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/284;G06F16/951;G06F16/953;G06F16/9535;G06F16/33 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 裴磊磊 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种多维度网络舆情大数据对比分析方法,所述方法在双关键词搜索的基础上,对下载的网站进行自定义,分为三类不同数据来源进行全文搜索和数据采集,并对相关文章标题进行语义分析,经过分词、词频排序、新闻文本日常用词语料库匹配排除,得出有效的新闻热点专业词汇列表,并对不同数据来源的新闻热点专业词汇列表进行对比分析。采用互联网新闻文本大数据分析得出的词频数据,其样本量巨大,具有较高真实性和客观性,代表政府部门、公众群体观点,能够弥补传统的访谈和问卷调查方法数据样本量较小和取样随机性不足的缺陷,可以为进一步的公众观点主观评价分析提供数据参考。 | ||
搜索关键词: | 一种 多维 网络 舆情 数据 对比 分析 方法 | ||
【主权项】:
1.一种多维度网络舆情大数据对比分析方法,其特征在于,所述方法包括以下步骤:S1、根据关键词,以政策性、新闻性、评论性三类网站为数据源进行文章搜索,并抓取文章标题、发表时间、网络地址这些开放性数据;S2、根据下载的文章标题,进行分词处理,删除连词、介词、代词这些结构性词汇,去除动词、形容词词性的词汇,只保留名词,得出新闻热点词汇列表;S3、通过新闻文章日常用词语料库匹配排除法,将新闻热点词汇列表中的日常用词删除,得出新闻热点专业词汇列表;S4、对新闻热点专业词汇列表进行词频分析,并以词频降序排列,选取前百位数据制得总数据源的词频总表进行分析;S5、增加年份数据,在总数据源的词频总表基础上,根据不同年份列出词频分表,进一步得出以时间为轴线的关注点变化趋势;区分不同的数据源,根据选取的前百位数据得出总数据源和各分数据源的热点专业词汇列表,将不同数据源得出的热点专业词汇进行横向对比,找出其异同点和热点发展时序。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学;覃思建筑工程技术咨询(广州)有限公司,未经华南理工大学;覃思建筑工程技术咨询(广州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910022183.X/,转载请声明来源钻瓜专利网。
- 上一篇:学生上网行为检测方法和装置
- 下一篇:短文本聚类方法及终端设备
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置