[发明专利]基于规则和统计模型的中文微博情感分析方法在审
申请号: | 201510127310.4 | 申请日: | 2015-03-23 |
公开(公告)号: | CN104731770A | 公开(公告)日: | 2015-06-24 |
发明(设计)人: | 黄刘生;汪琦;陆潇榕;刘相言;戚名钰;孙嘉堃;杨威 | 申请(专利权)人: | 中国科学技术大学苏州研究院 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 苏州广正知识产权代理有限公司 32234 | 代理人: | 徐萍 |
地址: | 215123 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 规则 统计 模型 中文 情感 分析 方法 | ||
1.一种基于规则和统计模型的中文微博情感分析方法,其特征在于,包括:
步骤一:文本预处理及观点句识别,即针对每个句子,首先判断出该条句子观点句还是非观点句;
步骤二:情感极性分析,即在情感词典的基础上,对观点句进行分词处理,并抽取特征,构建SVM模型,对观点句进行情感极性分类;
步骤三:情感划分,即在情感极性判断基础上,将观点句进行具体的情感划分。
2.根据权利要求1所述的基于规则和统计模型的中文微博情感分析方法,其特征在于,所述情感极性包括正面情感(Pos),负面情感(Neg)和中性情感(NEUTRAL)。
3.根据权利要求1所述的基于规则和统计模型的中文微博情感分析方法,其特征在于,所述文本预处理及观点句识别的具体步骤包括:
预处理:
(1.1)对微博语料进行预处理,删除无意义微博,所述无意义微博包括垃圾微博文本和广告营销微博文本;
(1.2)删除微博中的话题标签,即去除“#”和其间的文字内容,得到预处理语料;
(1.3)创建主观词词典,并标注主观词的词性;
观点句判断:
(2.1)对预处理语料进行分词并标注词性,进行句子分词和特征提取,构建特征分类模型;
(2.2)将分词语句与主观词词典进行匹配,并判断主观词是否为动词词性;
(2.3)如果主观词为动词词性,则在分词语句的前后找代词和情感词;
(2.4)在分词语句中寻找名词或名词短语,如果出现名词或名词短语,则判定该分词语句为观点句;
(2.5)如果没有出现名词或名词短语,并且满足步骤(2.3)和步骤(2.4)的要求,则直接判定该分词语句为非观点句。
4.根据权利要求3所述的基于规则和统计模型的中文微博情感分析方法,其特征在于,所述情感极性分类的具体步骤包括:
创建或引用对照词典,并对对照词典中的词语进行情感极性标注;
创建网络用语词典和表情符号词典,并对词典中的词语进行情感极性标注;
对观点句进行分词,获得极性分词;
采用十折交叉验证法,将极性分词投入特征分类模型中进行训练,得到极性分词的情感极性,其中,60%的极性分词用来作训练集,40%的极性分词作测试集;
根据极性分词的情感极性,得到观点句的情感极性。
5.根据权利要求4所述的基于规则和统计模型的中文微博情感分析方法,其特征在于,所述情感极性标注包括正面评价词语、负面评价词语、负面情感词语、正面情感词语、程度级别词语以及主张词语。
6.根据权利要求4所述的基于规则和统计模型的中文微博情感分析方法,其特征在于,所述情感划分的具体实施步骤包括:
创建和收集语料库,所述语料库包括教材、科学杂志、期刊、报纸,童话故事和文学名著;
对语料进行情感标注,创建语料库的标注体系,即对每一个待标注的语料进行情感信息的填充和集合;
将微博语料逐句切割成短句,并将短句放入语句解析器中,语句解析器将会对句子的情感复杂程度进行分类;
提取分类好的分类句的语义特征,并对语义特征进行解析;
将解析结果传到条件随机场CRFs,利用语料库计算微博语料中每个分类句表示的情感色彩,得到文章的情感链;
对情感链进行分析评估;
根据情感链的分析评估结果和观点句的情感极性,得出最终情感划分。
7.根据权利要求6所述的基于规则和统计模型的中文微博情感分析方法,其特征在于,所述对情感链进行分析评估的具体步骤包括:
采用多句互相影响联合评估法对语料进行情感划分;
采用共现的多元情感在语料标注中匹配的准确率来衡量情感标注的连贯性。
8.根据权利要求7所述的基于规则和统计模型的中文微博情感分析方法,其特征在于,所述采用多句互相影响联合评估法对语料进行情感划分的具体步骤包括:
对每个分类句进行情感评估;
判断分类句之间的情感联系,即上下文的联系以及语法语义之间的联系;
在表达情感及句意相似或相同的基础上进行多句互相影响联合评估。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学苏州研究院;,未经中国科学技术大学苏州研究院;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510127310.4/1.html,转载请声明来源钻瓜专利网。