[发明专利]一种基于社会媒体的宏观经济领域情感分析方法及系统在审
申请号: | 201711248804.3 | 申请日: | 2017-12-01 |
公开(公告)号: | CN107885883A | 公开(公告)日: | 2018-04-06 |
发明(设计)人: | 付博 | 申请(专利权)人: | 北京国信宏数科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京恒都律师事务所11395 | 代理人: | 王清亮 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 社会 媒体 宏观经济 领域 情感 分析 方法 系统 | ||
1.一种基于社会媒体的宏观经济领域情感分析方法,其特征在于,所述方法包括:
通过数据模块抓取经济领域的社会媒体数据,并对所述社会媒体数据进行预处理;
通过分类特征模块定义社会媒体数据的分类特征;
根据所述分类特征通过分类器模型训练模块构建分类器模型,并对所述分类器模型进行训练学习;
利用所述分类器模型通过判定模块对经过预处理的所述社会媒体数据进行情感判定。
2.根据权利要求1所述的方法,其特征在于,所述通过数据模块抓取社会媒体数据,并对所述社会媒体数据进行预处理,具体包括:
从互联网上抓取经济领域社会媒体数据,将所述数据进行去重和去噪预处理,划分成多个情感句子。
3.根据权利要求1或2所述的方法,其特征在于,所述分类特征包括词汇特征、情感词特征、表情符特征、情感上下文特征和符号特征。
4.根据权利要求3所述的方法,其特征在于,
所述词汇特征,指通过分词工具对句子进行分词后将句中出现的词汇表示成词向量形式,定义词汇特征属于布尔值特征;
所述情感词特征,指将句子中出现的正面情感词的个数、出现的情感词的分值总和、出现的情感词的最大情感值分值和最后一个情感词的分值作为情感词特征;
所述表情符特征,指收集带有同类表情符的社会媒体数据,定义表情符极性规则,根据所述表情符极性规则获得表情符情感词典;
所述情感上下文特征,指对于含有多个分句以及分句中含有转折词语的情感句,整句的情感值为含有转折词语的转折句的情感值;对于含有否定词语的情感句,整句的情感值等于原情感值取反;
所述视觉特征,指通过视觉捕捉到的特征,包括延长词语、连续标点符号、短链接、提及特征和话题;其中,所述延长词语指重复次数超过2次的词语。
5.根据权利要求4所述的方法,其特征在于,
所述情感词的分值来源于情感词典,所述情感词典是指对经济领域的文本进行情感标注后统计正负面极性得出的情感词典,所述情感词典包括情感词和所述情感词的极性得分。
6.根据权利要求4所述的方法,其特征在于,所述根据所述表情符极性规则获得表情符情感词典,具体包括:
利用表情符获取大量社会媒体数据;
修正所述表情符,得出表情符数据;
只收集带有同类表情符的社会媒体数据,定义表情符极性规则为:包含正面表情符且不包含负面表情符的社会媒体数据具有正面情感极性,包含负面表情符且不包含正面表情符的社会媒体数据具有负面情感极性;
根据所述表情符极性规则进行修正,获得表情符情感词典。
7.根据权利要求1所述的方法,其特征在于,所述根据所述分类特征通过分类器模型训练模块构建分类器模型,对所述分类器模型进行训练学习,具体包括:
将所述分类特征加入到分类器模型中,对所述分类器模型进行训练学习;
所述训练学习采用的评价指标为正确率、准确率、召回率和F值,所述F值指正确率和召回率的调和平均值。
8.一种基于社会媒体的宏观经济领域情感分析系统,其特征在于,所述系统包括:
数据模块,用于抓取经济领域的社会媒体数据,并对所述社会媒体数据进行预处理;
分类特征模块,用于定义社会媒体数据的分类特征;
分类器模型训练模块,用于根据所述分类特征构建分类器模型,对所述分类器模型进行训练学习;
判定模块,用于利用所述分类器模型对经过预处理的所述社会媒体数据进行情感判定。
9.根据权利要求8所述的系统,其特征在于,所述分类特征包括词汇特征、情感词特征、表情符特征、情感上下文特征和符号特征。
10.根据权利要求9所述的系统,其特征在于,
所述词汇特征,指通过分词工具对句子进行分词后将句中出现的词汇表示成词向量形式,定义词汇特征属于布尔值特征;
所述情感词特征,指将句子中出现的正面情感词的个数、出现的情感词的分值总和、出现的情感词的最大情感值分值和最后一个情感词的分值作为情感词特征;
所述表情符特征,指收集带有同类表情符的社会媒体数据,定义表情符极性规则,根据所述表情符极性规则获得表情符情感词典;
所述情感上下文特征,指对于含有多个分句以及分句中含有转折词语的情感句,整句的情感值为含有转折词语的转折句的情感值;对于含有否定词语的情感句,整句的情感值等于原情感值取反;
所述视觉特征,指通过视觉捕捉到的特征,包括延长词语、连续标点符号、短链接、提及特征和话题;其中,所述延长词语指重复次数超过2次的词语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国信宏数科技有限公司,未经北京国信宏数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711248804.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有电灯调节功能的智能自行车
- 下一篇:一种新型自行车尾灯安装支架