[发明专利]一种面向电商评论文本的Aspect级情感分析方法有效
申请号: | 201810564582.4 | 申请日: | 2018-06-04 |
公开(公告)号: | CN109101478B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 杨鹏;张成帅;李幼平;张长江 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06K9/62;G06Q30/02 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李玉平 |
地址: | 211189 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 评论 文本 aspect 情感 分析 方法 | ||
1.一种面向电商评论文本的Aspect级情感分析方法,其特征在于,包括如下步骤:首先,对从电商平台实时采集的电商评论文本进行预处理,并按照其所属的商品、商家、品牌进行分批;接着,在一批电商评论文本内部,综合考虑词性、句法及共现性特征,对候选评价对象的重要性进行排序,抽取电商评论文本中的评价对象;然后,利用动态滑动窗口机制将词项间共现限定在评论段级,并基于LDA模型对这一批电商评论文本中的评价对象进行聚类,得到评论Aspect-评价对象间对应关系;最后,基于构建的情感词典、否定词典,对电商评论文本进行情感分析;
引入评价对象对评论语义进行表征,并将其定义为消费者在具体评论文本中的情感指向;首先,借助分词和词性标注过程,基于词性特征抽取评论文本中的名词构成候选评价对象集合;然后,借助文本句法结构分析过程,基于句法特征抽取评论文本中的二元名词性短语扩充候选评价对象集合;最后,在该批次电商评论文本范围内,借鉴PageRank算法的网页链接排序机制,基于词项间共现特征,提出候选评价对象重要性排序机制,滤除重要性低于所设阈值的候选评价对象,得到最终的评价对象结果;
其中,候选评价对象ni重要性的定义,如公式(1)所示:
在公式(1)中,β表示减幅系数,满足β∈(0,1);p(ni)表示候选评价对象ni的重要性;O(ni)表示与ni共现的其他候选评价对象的个数;F(ni)表示ni的频率;E表示所有候选评价对象间的共现关系;(ni,nj)∈E表示ni与nj共现。
2.如权利要求1所述的面向电商评论文本的Aspect级情感分析方法,其特征在于,所述电商评论文本预处理主要是对从互联网采集的电商评论文本进行处理,使其满足后续处理过程的输入要求;具体分为以下4个步骤:
步骤1-1,电商评论文本分批;按照电商评论文本所属的商品、商家、品牌对电商评论文本进行分批;
步骤1-2,重复语句处理;采用正则匹配的方式对重复出现大于两次的语句只保留两次;
步骤1-3,表情符号替换;采用字符串匹配的方式将表情符号替换为相应的文字;
步骤1-4,分词、去除停用词;采用停用词表配合开源的结巴分词工具实现。
3.如权利要求1所述的面向电商评论文本的Aspect级情感分析方法,其特征在于,引入评论Aspect对电商平台中具体商家、品牌、商品范围内,评价对象的主题相关性进行表征,将其定义为经评价对象聚类后得到的评价对象类簇;首先,利用动态滑动窗口机制对评论文本进行分段,将词项间共现限定在评论段级;然后,基于LDA模型对评价对象进行聚类,得到评论Aspect结果;
将滑动窗口的大小设置为对评价对象密度取倒数后的向上取整值;其中,评价对象密度的计算方式如式(2)所示:
其中,CommObjDen sity表示评价对象密度,CommObjNum表示评论文本中出现的评价对象数目,SentNum表示评论文本中的句子数目;
针对滑动窗口大小的自适应调整,包括以下两种特殊的情况:
1)句子不包含评价对象;此类句子多为前一句内容的延续或后一句内容的前导,故滑动窗口不应跨过此类句子同时包含其前一句和后一句;
2)句子包含多个评价对象;此类句子多涵盖消费者对某评论Aspect完整的情感表达,除不包含评价对象的句子外,滑动窗口一般不应将其他句子包含进来。
4.如权利要求1所述的面向电商评论文本的Aspect级情感分析方法,其特征在于,利用同义词和频繁共现的形容词、副词对基础情感词典进行扩展,并基于扩展后的情感词典、否定词典,对电商评论文本进行情感分析,具体包括以下步骤:
步骤4-1,词典构建;筛选出包括积极词、消极词的基础情感词典和涵盖否定词的否定词表;
情感词典中,情感极性由1和-1表示,1表示积极词,-1表示消极词;情感强度用1-5表示,1表示程度最浅,5表示程度最深;
否定词典中,情感基数由1和-1表示,1表示认可,而-1表示否定;优先级主要由以字数确定,字数越多,优先级越大;当文本中某情感词前面出现不止一个否定词能够匹配成功时,依照优先级确定匹配的否定词;
步骤4-2,Aspect级情感分析。引入评论段作为消费者对评价对象情感表达的载体,将其定义为评论文本中针对评价对象的评论性文本。首先,识别评论段中包含的所有情感词和否定词;然后,将所有情感词对应的情感极性、情感强度与对应否定词的情感基数相乘后累加,得到整个评论段的情感倾向值,并以此作为评论段中每个评价对象的情感倾向值;最后,将评价对象级情感分析结果映射到评论Aspect级,得到Aspect级电商评论文本情感分析结果,具体的计算公式如式(3)、(4)、(5)、(6)所示:
SA_CO(cp,co)=sentiment(cp) (5)
SA_CA(cp,ca)=∑co∈cp∩co∈casentiment(co) (6)
其中,cp表示某电商评论段,co表示cp中包含的某评价对象,sw表示cp中的某情感词,sp(sw)表示sw对应的情感极性,sv(sw)表示sw对应的情感强度,nb(sw)表示sw对应否定词的情感基数,sb(nw)表示nw对应的情感基数,SA_CO(cp,co)表示cp中针对co的情感倾向,SA_CA(cp,ca)表示cp中针对ca的情感倾向。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810564582.4/1.html,转载请声明来源钻瓜专利网。