[发明专利]一种基于朴素贝叶斯分类的节日情感分析方法在审
申请号: | 201910975850.6 | 申请日: | 2019-10-15 |
公开(公告)号: | CN110727798A | 公开(公告)日: | 2020-01-24 |
发明(设计)人: | 宋禹幡;胡建路;原慧琳 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/953;G06K9/62 |
代理公司: | 21212 大连东方专利代理有限责任公司 | 代理人: | 李馨 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 微博 朴素贝叶斯分类器 自然语言处理技术 情感分析 权重分配 商业营销 影响用户 舆情分析 贝叶斯 分类 转发 评论 | ||
本发明提供一种基于朴素贝叶斯分类的节日情感分析方法。本发明基于自然语言处理技术,建立微博影响力模型,将微博的评论、转发、点赞数进行权重分配以得到影响值。再从具体的节日方向出发利用朴素贝叶斯分类器对定向的微博数据进行分类,可以探究影响用户节日情感获取的实质因素。相关因子的提取也为舆情分析与控制以及商业营销发展提供理论依据。
技术领域
本发明涉及情感分析技术领域,尤其涉及一种基于朴素贝叶斯分类的节日情感分析方法。
背景技术
随着互联网技术的发展,人们越来越多地接触到不同类型的文化形式。文化资源经过多层面的输入输出,正进行世界范围的交流融合。然而,近年来,人们在很大程度上忽视了我国传统文化,越来越多的国人崇尚西方节日,更多地提倡外来文化。这一趋势的背后,我国传统文化的弘扬正受到严重的冲击,这也造成了传统文化的快速失落感。而毫无目的的宣传效果并不是很显著。
现阶段的情感分析方法可分为基于情感词典的方法和基于机器学习的方法。前者是利用现有的情感词典根据语义规则,通过情感词典的制定,拆分文本数据的段落并解析句法,然后计算出情感值来描述文本的态度倾向。后者又称基于深度学习的方法,是通过选取文本的一些特征标注训练集和测试集,需要人工标注所要训练的文本,将目标分为不同的种类进行情感极性的判断,进行有监督的机器学习过程,使用朴素贝叶斯(NaiveBayes)、支持向量机(support vector machine,SVM)和最大熵(maximum entropy)等分类器进行文本分类。
目前对于微博文本的情感分类大都集中在用户的评价分析以及对于事件本身热度的舆情分析并结合神经网络对相关事件进行预测,但现有方法没有考虑事件本身对于用户的影响力大小变化,从而导致无法准确地根据事件本身来做用户情感引导。
发明内容
根据上述提出的技术问题,而提供一种基于朴素贝叶斯分类的节日情感分析方法。本发明采用的技术手段如下:
一种基于朴素贝叶斯分类的节日情感分析方法,包括如下步骤:
步骤一、根据预分析节日的发生日期以及与其相关的关键字/词采集用户的多维度原始数据,对采集到的原始数据进行预处理;
步骤二、基于政策因素分析积极情感占比,具体地,将预处理后的数据按照该节日的日期以及该节日往年信息通过朴素贝叶斯分类,进行积极情感占比分析;
步骤三、基于明星效应因素分析积极情感占比,其中,所述明星为微博官方的热度统计数据中热度达到预设指标的用户,具体地,选取预设指标(转发、评论和点赞的互动数量)综合评定后,热度排名靠前的多名明星微博的预处理后的数据,通过朴素贝叶斯分类,进行积极情感占比分析;基于预先给定函数对多维度数据中的待分析内容构建影响力模型,进而计算该明星微博内容的影响力;
步骤四、基于步骤二、步骤三的结论绘制可视化图表,分析影响用户情感获取的实质因素。
进一步地,所述步骤一中,通过爬虫获取数据,具体包括:执行必要的请求参数,包括请求头和查询参数;将目标节日的日期和关键字设置为查询参数,抓取数据直接利用“请求”提供的方法将json数据转换为Python dictionary对象,从中提取所有文本字段的值,并将其放入博客列表中;所述多维度原始数据包括用户ID、昵称、会员信息、微博、微博标签、转发数、评论数、“赞”数。
进一步地,所述步骤二、步骤三中,通过调用Snow-NLP对微博文本进行情感分析,读取爬虫获取的数据,然后执行单词分割和去停词操作。
进一步地,所述步骤三中,基于如下给定函数计算该明星微博内容的影响力:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910975850.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:标签生成方法、装置、电子设备和计算机可读介质
- 下一篇:本体构建方法及装置