[发明专利]基于表情词典与情感常识的微博情感分析方法在审
申请号: | 202010449838.4 | 申请日: | 2020-05-25 |
公开(公告)号: | CN111626050A | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 徐新燕;张顺香;朱广丽 | 申请(专利权)人: | 安徽理工大学 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/247;G06F40/284;G06F40/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 232001 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 表情 词典 情感 常识 分析 方法 | ||
1.基于表情词典与情感常识的微博情感分析方法,其特征在于:所述的基于表情词典与情感常识的微博情感分析方法,包括如下步骤:
(1)采集指定话题下的微博文本并对文本数据进行预处理和分词操作,选取高频使用的表情符号构建微博表情词典;
(2)抽取ConceptNet内具有明显情感倾向的二元实体作为常识候选集,过滤含有显式情感的二元情感常识搭配;
(3)二元实体候选集的情感极性计算;
(4)利用哈工大的同义词词林对情感常识的覆盖范围进行扩展,形成情感常识库;
(5)根据步骤(1)中表情权重和步骤(3)中情感常识权重计算对微博文本进行情感分类。
2.根据权利要求1所述的一种基于表情词典与情感常识的微博情感分析方法,其特征在于:在步骤(1)中,所述的采集指定话题下的微博文本并对文本数据进行预处理和分词操作,选取高频使用的表情符号构建微博表情词典的方法是:对某个话题下的微博文本进行采集,对采集的微博数据进行预处理操作,主要包括去除“#话题#”、“@用户名”、图片、视频以及网页链接等在内的噪声信息;之后利用中科院ICTCLAS分词工具进行分词,最后对高频使用的表情符号进行提取,构建表情词典,人工标注情感强度。
3.根据权利要求1所述的基于表情词典与情感常识的微博情感分析方法,其特征在于:在步骤(2)中,所述的抽取具有明显情感倾向的二元实体作为常识候选集,主要是由于ConceptNet内包含的常识知识绝大多数并不具有情感倾向。
4.根据权利要求1所述的基于表情词典与情感常识的微博情感分析方法,其特征在于:在步骤(3)中,所述的二元实体候选集的情感极性计算,主要是利用义原相似度的均差值来计算。
5.根据权利要求1所述的基于表情词典与情感常识的微博情感分析方法,其特征在于:在步骤(4)中,所述的利用哈工大的同义词词林对情感常识的覆盖范围进行扩展方法是:在已标注极性的情感常识中,对两个实体分别进行同义词林替换,将替换的同义词元组扩充到现有的情感常识库中。
6.根据权利要求1所述的基于表情词典与情感常识的微博情感分析方法,其特征在于:在步骤(5)中,所述的对于整条微博消息的情感值,需要综合考虑表情符号和微博文本对倾向值结果的影响,微博文本中查找是否有二元情感常识搭配,如果有匹配,则用现有的已标注情感权值的二元情感常识替代微博文本现有的词语搭配来计算微博文本的情感倾向,对上述两部分进行情感倾向值加权处理后计算得到整条微博情感倾向。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽理工大学,未经安徽理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010449838.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种集成式学生安全守护系统
- 下一篇:地址匹配方法及装置