[发明专利]数据情感分析方法、装置、电子设备及介质有效
申请号: | 202110043447.7 | 申请日: | 2021-01-13 |
公开(公告)号: | CN112364170B | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 王兆元;郭艳波;李青龙;白剑波;高媛 | 申请(专利权)人: | 北京智慧星光信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F40/289;G06F40/242;G06N20/00 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 张超艳;董永辉 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 情感 分析 方法 装置 电子设备 介质 | ||
1.一种数据情感分析方法,其特征在于,包括:
采集评论信息;
获得评论信息中用户的评分;
基于词典采用关键词匹配和词典规则获得评论信息的情感极性,所述情感极性包括中性、负向和正向;
基于机器学习分析评论信息属于不同情感极性的概率;
采用映射的方法将所述评分、情感极性和情感极性的概率转换到同一范围;
将转换到同一范围的所述评分、情感极性和情感极性的概率采用加权投票融合的方式获得评论信息所属情感极性及分值;
其中,所述基于词典采用关键词匹配和词典规则获得评论信息的情感极性的步骤包括:
加载词典,所述词典包括主题词词典、情感词词典、用户分词词典和极性白名单,情感词词典包括普通情感词词典和主题相关情感词词典,极性白名单包括正面白名单、负面白名单和中性白名单;
通过用户分词词典对评论信息进行预处理,所述预处理包括断句和分词;
通过主题词词典扫描评论信息,判断扫描到的词是否为主题词;
如果扫描到的词为主题词,通过主题相关情感词典获得所述主题词的情感极性;
如果扫描到的词不是主题词,通过普通情感词典获得所述词的情感极性;
筛查情感词是否存在于极性白名单,如果存在于极性白名单,则根据极性白名单决定情感极性;
通过评论信息中词所属最多的情感极性作为评论信息的情感极性;
或者,所述基于词典采用关键词匹配和词典规则获得评论信息的情感极性的步骤包括:
设定情感极性的中性对应的权重;
加载词典,所述词典包括主题词词典、情感词词典和用户分词词典;
通过用户分词词典对评论信息进行预处理,所述预处理包括断句和分词;
通过主题词词典扫描评论信息,获得评论信息包含的主题词,从而获得包含主题词的断句,从而获得断句的向量词组,所述向量词组的初始权重为中性对应的权重,向量词组的各词的初始权重,为所述中性对应的权重的平均值;
通过情感词典获得断句的词向量组的各词的词语类别,所述词语类别包括程度副词、消极词、积极词和否定词;
逐次更新词向量组的权重,包括:如果词语为积极词语,获取词语的前一个词和后一个词语;如果前一词为程度副词,则程度副词的初始权重和所述词语的初始权重相乘;如果前一词为否定词或消极词,前一词的权重乘以-1;如后一词为消极词,后一词的权重乘以-1;如果前一词或后一词除上述情况的其他情况,后一词或前一词的初始权重和所述词语的初始权重相加;如果词语为否定词,则所述词语的初始权重乘以-1;如果词语为消极词,获取词语的前一词;如果前一词为否定词,则前一词和所述词语的权重相加;如果前一词为程度副词,则程度副词的初始权重和所述词语的初始权重相乘;如果前一词语为其他情况,则前一词的权重乘以-1;如果词语为程度副词,则初始权重不变;逐次更新,获得更新后的词向量组的权重;
如果词向量组的权重大于中性对应的权重,所述断句的情感极性为正向;
如果词向量组的权重小于中性对应的权重,所述断句的情感极性为负向;
如果词向量组的权重等于中性对应的权重,所述断句的情感极性为中性;
通过评论信息中包含主题词的断句所属最多的情感极性作为评论信息的情感极性;
其中,所述基于机器学习分析评论信息属于不同情感极性的概率的步骤包括:
采用无监督语料对语言模型进行预训练;
通过有标注的语料对预训练后的语言模型进行调整;
通过调整后的语言模型获得评论信息属于不同情感极性的概率;
其中,所述语言模型为Transformer模型,采用BERT预训练模型对语言模型进行预训练,Bert利用Transformer模型的特征抽取能力来学习词语的双向编码表示;
其中,所述采用映射的方法将所述评分、情感极性和情感极性的概率转换到同一范围的步骤包括:
获得用户评分的评分等级的个数;
将最低评分等级的评分映射到所述范围的最小值;
将最高评分等级的评分映射到所述范围的最大值;
将中间等级的评分映射到所述最大值和最小值的平均值;
将中间等级和最低等级之间的等级的评分映射到小于所述最大值和最小值的平均值与最小值的平均值;
将中间等级和最高等级之间的等级的评分映射到大于最大值和最小值的平均值与最大值的平均值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智慧星光信息技术有限公司,未经北京智慧星光信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110043447.7/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置