[发明专利]电影评论情感分析方法及装置有效
申请号: | 201910122560.7 | 申请日: | 2019-02-19 |
公开(公告)号: | CN109684647B | 公开(公告)日: | 2020-07-24 |
发明(设计)人: | 刘美玲;尚月;韩悦 | 申请(专利权)人: | 东北林业大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/247;G06F40/289;G06F40/284;G06F16/35 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 刘冰 |
地址: | 150040 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电影 评论 情感 分析 方法 装置 | ||
1.电影评论情感分析方法,其特征在于,包括以下步骤:
(1)爬取待分析的电影评论语料,并利用扩充结巴分词词典对爬取的语料进行分词,并进行去停用词预处理,得到预处理之后的语料;针对每个句子生成预处理之后的词语集合wordlist[j],所有句子的语料集合为wordlist;同时,按照分词结果对句子进行句法分析;
(2)对于句子中的每一个词Wi∈wordlist[j],查询特征词词典featureDict,判断Wi是否属于影评属性特征词词典featureDict中的词;若是,跳向步骤(3);否则,另j+1;
(3)基于句法分析,判断Wi的父节点是否是“NN”或“NR”或“PN”,如果是,遍历这个父节点的父节点的兄弟节点找到标记为“VA”的节点;否则,返回步骤(2);
NN为常用名词,NR为固有名词,PN为代词,VA为表语形容词;
(4)获取句子中距离Wi最近的“VA”的节点对应的词,作为情感词p;
(5)遍历W-SVM情感词典和SO-VEC情感词典,若p属于褒义词情感词典,词语情感值VWi=1;若p属于贬义词情感词典,VWi=-1;
所述褒义词情感词典包括W-SVM情感词典和SO-VEC情感词典中的褒义词情感词典,所述贬义词情感词典包括W-SVM情感词典和SO-VEC情感词典中的贬义词情感词;
所述W-SVM情感词典的构建过程如下:
步骤2.1、构建词典:
构建基础情感词典:将HowNet词典与《情感词汇本体》词典进行归总并去除重复词条;筛选构造的基础情感词典,去除中性词;
步骤2.2、构建W-SVM情感词典:
抽取具有情感倾向且与基础情感词典重复的情感词作为情感种子词,记为SVM情感种子词,包括x2个褒义情感种子词、x3个贬义情感种子词;
将x1个属性种子词和SVM情感种子词分别输入word2vec模型,提取具有最接近的相似度的前m个词作为SVM候选词;
同时基于TF-IDF统计结果,根据词频挑选若干个基准褒义词和若干个基准贬义词;将基准词的词向量作为训练集进行SVM分类器的训练,利用训练好的SVM分类器模型对SVM候选词的褒贬分类,对分类的结果再进行二次人工矫正;
将经过人工矫正后的褒义词和贬义词加入到基础情感词典中,得到电影评论的W-SVM情感词典;
所述SO-VEC情感词典的构建过程如下:
对预处理之后的语料进行词性标注工作,提取词性为形容词、成语、动词、语气词以及非语素词的词语,将提取的词语集合记为f-word;
对f-word中的词语输入word2vec模型,提取具有最接近的相似度的前n个词,作为VEC候选词,集合记为F-word;
将F-word中的词语与基础情感词典做交集,并对交集中的词进行词频统计;F-word中的词语与基础情感词典没有相交的部分的集合记为new,对new中的词语进行人工筛选,剔除没有意义的词语,剩下的词语集合记为word1;
从与基础情感词典的褒义词典相交的部分中筛选出高词频中前n1个词语作为褒义情感种子词,记为VEC褒义情感种子词,集合记为pword;
从与基础情感词典的贬义词典相交的部分中筛选出高词频中前n2个词语作为贬义情感种子词,记为VEC贬义情感种子词,集合记为nword;
pword和nword构成VEC情感种子词集合;
采用SO-PMI算法对word1中的每个词语进行计算,若SO-PMI大于0则为褒义词,小于0则为贬义词,等于0的词语即中性词,不作任何处理;
最后对结果展开手动纠正,将纠正后的褒义词和贬义词加入到基础情感词典中,得到SO-VEC情感词典;
(6)判断Wi与p之间的词mk是否属于否定词词典,并记录mk的数量λ,同时更新词语情感值VWi=VWi*(-1)λ;最终根据词语情感值VWi确定影评细粒度情感;
所述的否定词词典为否定词构成的词典。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北林业大学,未经东北林业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910122560.7/1.html,转载请声明来源钻瓜专利网。