[发明专利]一种基于评分和中文情感分析的垃圾评论检测方法无效
申请号: | 201310002969.8 | 申请日: | 2013-01-05 |
公开(公告)号: | CN103064971A | 公开(公告)日: | 2013-04-24 |
发明(设计)人: | 张卫丰;徐胜国;张迎周;周国强;王子元;周国富;钱小燕;许碧欢;陆柳敏 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 叶连生 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 评分 中文 情感 分析 垃圾 评论 检测 方法 | ||
技术领域
本发明涉及一种基于评分和中文情感分析的垃圾评论检测系统,主要是针对大部分的电子商务网站提供给用户对于所购买的商品发表自己的评论,利用评分机制结合中文情感分析,来检测哪些评论是垃圾评论,进而为用户购买商品提供参考意见。属于自然语言处理,模式识别,机器学习交叉领域。
背景技术
垃圾评论(Review Spam)也称为Opinion Spam、Fake Review或者Bogus Review,发表此类评论的用户称为Review Spammer、Opinion Spammer或者Fake Reviewer。产品垃圾评论是由一些用户蓄意发表的不切实际、不真实的、有欺骗性质的评论,其目的是为了提高或者毁坏某一产品或某一类产品的声誉,从而误导潜在消费者,使其做出风险性的购买决策,或者干扰评论意见挖掘和情感分析系统的分析结果,降低精确度。Jindal N等人将产品垃圾评论分为3类:a)欺骗性的评论,指蓄意提高或毁坏产品声誉的不真实的评论,过度吹捧产品的评论称为Hyper Spam,过度贬低产品的评论称为Defaming Spam; b)不相关的评论,指评论的对象仅仅是品牌、生产商、销售商等与产品本身无关的评论;c)非评论信息,如广告、读者的问题和回复等。
针对垃圾评论检测,在国外,Theodoros Lappas 从攻击者的角度来看待这个问题。在研究中做了这样的一个分析,模拟一个基于真正的评论语料库的实际攻击,讨论不同的攻击策略,以及各种促成因素,确定攻击的影响,并做了实验和分析,了解假评论的本质。Arjun Mukherjee等人研究如何发现鉴别假评论小组(一组协同工作写假评论的评论者)。假评论者小组更加危险,因为他们可以控制对目标产品的所有意见,他们使用频繁项集挖掘方法找到一组候选团体。他们发现虽然标记单个假评论和评论者非常困难,但是,标记假评论家团体是多少容易。Bing Liu等人从评论的评论角度研究这个问题。针对评论的评价,从另外一方面看,是读者对于评论,他们遇到的问题和关心的事物的评价。很明显,评价的信息对于未来的读者和品牌都是非常有价值的。作者提出两种隐含变量模型来同时建模和提取这些关键信息,结果也能够用来准确分类评价。
针对文本情感分析,在国外,Turney等人提出一种利用无监督学习方法,即逐点互信息方法(PMI)来对评论文档进行情感分类。分类过程中,先提取评论句中的形容词或副词,再分别计算其与褒义种子词“excellent”及贬义种子词“poor”的PMI值,最后将文档中提取的所有形容词或副词短语的极性相加得到整个评论的情感倾向。若被提取出的形容词或副词短语的平均语义极性是正面的,则该评论分类为正面评论,反之为负面评论。在Pang等人的研究中,分别利用朴素贝叶斯(NB)、最大熵(ME)和支持向量机(SVM)三种分类算法来对整个文档进行训练和褒贬分类。Hatzivassiloglou等人在他们的研究中,主要分析了主观型评论句的判别方法。研究人员分析基于句子情感分类。句子情感分类方法主要是基于情感知识的方法和基于特征的分类方法。第一种方法主要依赖于一些现有的情感字典或领域字典。第二种方法主要是利用机器学习,通过选择大量有用的特征,从而来完成分类任务。有两种方法可以建立情感词典:基于字典的方法和基于语料库的方法。Turney等人使用了基于语料库来建立情感词典的方法。Hu等人和Kim等人建立情感字典基于词典的方法。
总之,以上的几种有关垃圾评论检测方法都有不足之处,本发明提出一种新的情感模式的抽取方法,改善了分类器的性能,提高了分类精度,并将中文情感分析用于垃圾评论检测中,更好的发现垃圾评论,帮助用户做出购买决策。
发明内容
技术问题:本发明涉及一种基于评分和中文情感分析的垃圾评论检测方法,主要是针对大部分的电子商务网站提供给用户对于所购买的商品发表自己的评论,利用评分机制结合中文情感分析,来检测哪些评论是垃圾评论,进而为用户购买商品提供参考意见。本系统提出一种新的情感模式的抽取方法,改善了分类器的性能,提高了分类精度,并将中文情感分析用于垃圾评论检测中,更好的发现垃圾评论,帮助用户做出购买决策。
技术方案:本发明的一种基于评分和中文情感分析的垃圾评论检测方法所包含的步骤为:
步骤1) 输入产品评论信息;
步骤2) 预处理产品评论信息:
步骤2.1) 生成评论信息语料库;
步骤2.2) 提取语料库的第一条评论信息;
步骤2.3) 判断评论信息是否存在语料库中,如果不存在,转步骤2.10),否则,转步骤2.4);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310002969.8/2.html,转载请声明来源钻瓜专利网。