[发明专利]数据情感分析方法、装置、电子设备及介质有效

专利信息
申请号: 202110043447.7 申请日: 2021-01-13
公开(公告)号: CN112364170B 公开(公告)日: 2021-06-29
发明(设计)人: 王兆元;郭艳波;李青龙;白剑波;高媛 申请(专利权)人: 北京智慧星光信息技术有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/33;G06F40/289;G06F40/242;G06N20/00
代理公司: 北京鸿元知识产权代理有限公司 11327 代理人: 张超艳;董永辉
地址: 100080 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 情感 分析 方法 装置 电子设备 介质
【权利要求书】:

1.一种数据情感分析方法,其特征在于,包括:

采集评论信息;

获得评论信息中用户的评分;

基于词典采用关键词匹配和词典规则获得评论信息的情感极性,所述情感极性包括中性、负向和正向;

基于机器学习分析评论信息属于不同情感极性的概率;

采用映射的方法将所述评分、情感极性和情感极性的概率转换到同一范围;

将转换到同一范围的所述评分、情感极性和情感极性的概率采用加权投票融合的方式获得评论信息所属情感极性及分值;

其中,所述基于词典采用关键词匹配和词典规则获得评论信息的情感极性的步骤包括:

加载词典,所述词典包括主题词词典、情感词词典、用户分词词典和极性白名单,情感词词典包括普通情感词词典和主题相关情感词词典,极性白名单包括正面白名单、负面白名单和中性白名单;

通过用户分词词典对评论信息进行预处理,所述预处理包括断句和分词;

通过主题词词典扫描评论信息,判断扫描到的词是否为主题词;

如果扫描到的词为主题词,通过主题相关情感词典获得所述主题词的情感极性;

如果扫描到的词不是主题词,通过普通情感词典获得所述词的情感极性;

筛查情感词是否存在于极性白名单,如果存在于极性白名单,则根据极性白名单决定情感极性;

通过评论信息中词所属最多的情感极性作为评论信息的情感极性;

或者,所述基于词典采用关键词匹配和词典规则获得评论信息的情感极性的步骤包括:

设定情感极性的中性对应的权重;

加载词典,所述词典包括主题词词典、情感词词典和用户分词词典;

通过用户分词词典对评论信息进行预处理,所述预处理包括断句和分词;

通过主题词词典扫描评论信息,获得评论信息包含的主题词,从而获得包含主题词的断句,从而获得断句的向量词组,所述向量词组的初始权重为中性对应的权重,向量词组的各词的初始权重,为所述中性对应的权重的平均值;

通过情感词典获得断句的词向量组的各词的词语类别,所述词语类别包括程度副词、消极词、积极词和否定词;

逐次更新词向量组的权重,包括:如果词语为积极词语,获取词语的前一个词和后一个词语;如果前一词为程度副词,则程度副词的初始权重和所述词语的初始权重相乘;如果前一词为否定词或消极词,前一词的权重乘以-1;如后一词为消极词,后一词的权重乘以-1;如果前一词或后一词除上述情况的其他情况,后一词或前一词的初始权重和所述词语的初始权重相加;如果词语为否定词,则所述词语的初始权重乘以-1;如果词语为消极词,获取词语的前一词;如果前一词为否定词,则前一词和所述词语的权重相加;如果前一词为程度副词,则程度副词的初始权重和所述词语的初始权重相乘;如果前一词语为其他情况,则前一词的权重乘以-1;如果词语为程度副词,则初始权重不变;逐次更新,获得更新后的词向量组的权重;

如果词向量组的权重大于中性对应的权重,所述断句的情感极性为正向;

如果词向量组的权重小于中性对应的权重,所述断句的情感极性为负向;

如果词向量组的权重等于中性对应的权重,所述断句的情感极性为中性;

通过评论信息中包含主题词的断句所属最多的情感极性作为评论信息的情感极性;

其中,所述基于机器学习分析评论信息属于不同情感极性的概率的步骤包括:

采用无监督语料对语言模型进行预训练;

通过有标注的语料对预训练后的语言模型进行调整;

通过调整后的语言模型获得评论信息属于不同情感极性的概率;

其中,所述语言模型为Transformer模型,采用BERT预训练模型对语言模型进行预训练,Bert利用Transformer模型的特征抽取能力来学习词语的双向编码表示;

其中,所述采用映射的方法将所述评分、情感极性和情感极性的概率转换到同一范围的步骤包括:

获得用户评分的评分等级的个数;

将最低评分等级的评分映射到所述范围的最小值;

将最高评分等级的评分映射到所述范围的最大值;

将中间等级的评分映射到所述最大值和最小值的平均值;

将中间等级和最低等级之间的等级的评分映射到小于所述最大值和最小值的平均值与最小值的平均值;

将中间等级和最高等级之间的等级的评分映射到大于最大值和最小值的平均值与最大值的平均值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智慧星光信息技术有限公司,未经北京智慧星光信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110043447.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top