[发明专利]隐含观点情感极性的分析方法有效
申请号: | 201910218684.5 | 申请日: | 2019-03-21 |
公开(公告)号: | CN110032735B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 张强;方钊;杨善林;王安宁;王婉莹;陆效农 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/211 |
代理公司: | 北京久诚知识产权代理事务所(特殊普通合伙) 11542 | 代理人: | 余罡 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 隐含 观点 情感 极性 分析 方法 | ||
1.一种隐含观点情感极性的分析方法,其特征在于,包括以下步骤:
S1、获取用户的评论数据,所述评论数据包括:评论文本;
S2、对所述评论数据进行预处理,将所述评论文本划分为子句;
S3、从所述评论数据中提取产品特征;
S4、构建领域依赖的情感词典,并基于所述情感词典从所述子句中提取隐含观点子句;
S5、从所述隐含观点子句中提取频繁模式,从所述频繁模式中提取特征模式,从所述特征模式中提取特征隐含观点模式并分析所述特征隐含观点模式的情感极性,包括:
S501、将所述隐含观点子句转化为词序列,从所述词序列中提取频繁模式;
S502、基于所述产品特征从所述频繁模式中提取特征模式;
S503、基于情感极性检验从所述特征模式中提取特征隐含观点模式,包括:
基于所述特征模式,提取包含所述产品特征的所有隐含观点子句,构建正子数据集和负子数据集;
基于所述正子数据集和所述负子数据集计算:正子数据集中包含特征模式的子句的数量a、正子数据集中不包含特征模式的子句的数量d、负子数据集中包含特征模式的子句的数量b、负子数据集中不包含特征模式的子句的数量c;
对所述特征模式进行卡方检验:
其中:N=a+b+c+d;
χ2表示特征隐含观点模式的情感强度;
根据特征隐含观点模式的情感强度,提取特征隐含观点模式;
S504、使用扩展的逐点互信息分析所述特征隐含观点模式的情感极性;
S6、进行特征级别情感极性分析和评论级别情感极性分析,包括:
S601、提取“产品特征-特征隐含观点模式”集合;
S602、提取所述产品特征的核心特征隐含观点模式;
S603、进行特征级别情感极性分析和评论级别情感极性分析,包括:
在所述隐含观点子句中,所述产品特征的情感极性为:
其中:
fj表示第j个产品特征;
cpj表示产品特征fj对应的核心特征隐含观点模式;
表示cpj的情感极性;
统计隐含观点评论中包含一个产品特征的所有子句的核心特征隐含观点模式,加权计算每个产品特征的情感极性:
其中:
cpk表示评论的第k条子句中产品特征fj的核心特征隐含观点模式;
k表示评论所包含的子句的数量;
所述评论级别情感极性分析方法为:
计算所述隐含观点子句的情感极性:
其中:
clausek表示该条评论划分的第k条子句;
cpk,j表示子句clausek中第j个产品特征的核心特征隐含观点模式;
N表示子句clausek中产品特征的数量;
结合所有子句的情感强度来确定评论的情感极性:
其中:
polarity(review)表示该条评论的情感极性;
clausek表示该条评论划分的第k条子句。
2.如权利要求1所述的分析方法,其特征在于,在步骤S502中,所述特征模式的判断方法为:
判断所述频繁模式是否包含所述产品特征,若是,则该频繁模式为特征模式;若否,则该频繁模式为噪音模式。
3.如权利要求1所述的分析方法,其特征在于,在步骤S504中,所述特征隐含观点模式的情感极性的分析方法为:
使用扩展的逐点互信息测量所述特征隐含观点模式的情感极性的正负,如果计算结果大于0,则情感极性为正,标记为1;否则情感极性为负,标记为0,计算公式为:
其中:
表示pi的情感极性;
pi表示第i个特征隐含观点模式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910218684.5/1.html,转载请声明来源钻瓜专利网。