[发明专利]基于词典与规则的文本情感分析方法在审
申请号: | 201911084093.X | 申请日: | 2019-11-07 |
公开(公告)号: | CN110826317A | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 彭光辉;陶磊;屈立笳;苟溟 | 申请(专利权)人: | 成都国腾实业集团有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/30 |
代理公司: | 成都金英专利代理事务所(普通合伙) 51218 | 代理人: | 袁英 |
地址: | 610041 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 词典 规则 文本 情感 分析 方法 | ||
1.基于词典与规则的文本情感分析方法,其特征在于,包括以下步骤:
文本分割:将文本按符号进行切割,分成多个意群;
意群预处理:对意群进行分词,结合情感词典获取情感关键词,并标注该情感关键词的权重;
计算意群情感值:按照预定规则和情感关键词权重计算意群的情感值;
计算文本情感值:对意群的情感值进行综合计算,得出文本的情感倾向值。
2.根据权利要求1所述的基于词典与规则的文本情感分析方法,其特征在于,所述标注采用四元组对情感词汇进行标注,定义为:
sentimentword(name,polarity,pos,weight)
其中,name表示该词汇的名称,polarity表示极性,pos表示词性,weight代表该词的权重。
3.根据权利要求1所述的基于词典与规则的文本情感分析方法,其特征在于,所述情感词典包括正负面情感词典、转折归总词词典、程度词典或否定词词典中的一种或多种。
4.根据权利要求3所述的基于词典与规则的文本情感分析方法,其特征在于,意群情感值计算规则为:
其中w为意群的情感值,p为正负面情感词汇的权重,N为正负面情感词汇数量。
5.根据权利要求3所述的基于词典与规则的文本情感分析方法,其特征在于,意群情感值计算规则为:
其中w为意群的情感值,p为正负面情感词汇的权重,N为正负面情感词汇数量,m为修饰该正负面情感词的否定词的个数。
6.根据权利要求3所述的基于词典与规则的文本情感分析方法,其特征在于,意群情感值计算规则为:
其中w为意群的情感值,p为正负面情感词汇的权重,N为正负面情感词汇数量,d表示修饰该正负面情感词汇的程度词的权重。
7.根据权利要求3所述的基于词典与规则的文本情感分析方法,其特征在于,意群情感值计算规则为:
其中w为意群的情感值,p为正负面情感词汇的权重,N为正负面情感词汇数量,d表示修饰该正负面情感词汇的程度词的权重,α为根据否定词和程度词的前后位置关系预设的权重。
8.根据权利要求4-7任意一项所述的基于词典与规则的文本情感分析方法,其特征在于,当意群包含转折、归总词汇时,意群情感值计算规则为:
w=1.2×wori
其中w为意群的情感值,wori为意群不包含转折、归总词汇时的意群的情感值。
9.根据权利要求1所述的基于词典与规则的文本情感分析方法,其特征在于,所述文本分割将文本依次分割为段落、句子和意群,所述文本情感值按照以下规则计算:
其中,w为意群的情感值,s为该句子的情感值,P为段落的情感值,n为文本情感值,K为该句意群总数,M为该段落句子总数,Q为该篇章段落总数。
10.根据权利要求9所述的基于词典与规则的文本情感分析方法,其特征在于,根据句子与文本标题的相似度,对句子情感值进行调整:
s=β×sori
其中,s为该句子的最终情感值,β为相似度权重,sori为调整前的句子情感值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都国腾实业集团有限公司,未经成都国腾实业集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911084093.X/1.html,转载请声明来源钻瓜专利网。