[发明专利]基于双向迭代和自动构建更新语料库的垃圾评论过滤方法有效

申请号：	201510417206.9	申请日：	2015-07-15
公开（公告）号：	CN105068986B	公开（公告）日：	2018-03-16
发明（设计）人：	张宇;刘妙	申请（专利权）人：	浙江理工大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	杭州天勤知识产权代理有限公司33224	代理人：	胡红娟
地址：	310018 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于双向自动构建更新语料库垃圾评论过滤方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及电子商务网站中用户评论文本的垃圾评论过滤技术领域，尤其涉及一种基于双向迭代和自动构建更新语料库的垃圾评论过滤方法。

背景技术

随着互联网的普及和电子商务应用的迅猛发展，网络中用户评论数据呈指数级增长。这些海量的用户评论数据中蕴藏着大量有价值的信息，能够带来巨大的商业价值。

但是，与此同时，网络欺诈、刷钻炒信等现象也随之产生，评论数据中往往存在大量的垃圾评论，如商家广告、炒信评论、恶意评价等，使得用户无法获得商品和卖家的真实评价，也严重的阻碍了信息的挖掘，甚至会导致错误的挖掘结果。因此，垃圾评论过滤十分必要。

现有的垃圾评论过滤技术，通常是使用简单的规则，或是利用预先定义的垃圾关键词库来进行垃圾评论过滤的。这类方法的准确率受限于所制定的规则和所定义的垃圾关键词库。此外，由于互联网上新的评论特征词不断地涌现，规则和垃圾关键词库的维护也非常耗时。

另外一种典型的垃圾评论过滤方法，通过分析用户的行为，识别出撰写垃圾评论的用户，进而实现对垃圾评论的过滤。

但是，很多撰写垃圾评论的用户刻意不发表重复评论，从而避免被系统所识别，导致这些用户所发表的垃圾评论也无法被过滤出来。

此外还有一些学者提出了基于语义相似度的垃圾评论过滤方法，即先利用规则过滤出垃圾评论，再利用HowNet词语相似度来扩展文本相似度，并以此识别正常评论，来提高有效评论的识别率。但是该方法也依赖规则过滤出的垃圾评论的准确率，并且受限于HowNet的词语相似度计算结果。

发明内容

针对现有垃圾评论过滤技术的不足，本发明提出了一种基于双向迭代和自动构建更新语料库的垃圾评论过滤方法，采用非监督式的方法，无需人工标注，因此大大降低了人工成本，也易于扩展到新的应用领域。

一种基于双向迭代和自动构建更新语料库的垃圾评论过滤方法，包括如下步骤：

(1)获取产品的评论文本以构建语料库，并对语料库进行初始划分形成垃圾评论文本集和正常评论文本集；

(2)利用贝叶斯过滤器对所述垃圾评论文本集和正常评论文本集中的评论文本进行垃圾评论判别，并根据垃圾评论判别结果更新垃圾评论文本集和正常评论文本集；

(3)迭代执行步骤(2)，直至相邻两次迭代得到的垃圾评论文本集和正常评论文本集不再变化为止，并判定最后一次迭代得到的垃圾评论文本集中的评论文本为垃圾评论文本。

本发明的垃圾评论过滤方法实现了垃圾评论文本集和正常评论文本集的自动构建，对语料库形成一个初始划分，从而大大降低了人工标注的成本。本发明利用贝叶斯过滤器能够提取出之前未知的、新的垃圾评论关键词，并根据少量已知的垃圾评论文本识别出未知的、新的垃圾评论，适应当前新表达方式和网络用语层出不穷的现状。本发明通过迭代的方式进行垃圾评论文本集和正常评论文本集的自动更新，使得垃圾评论的判别更加准确高效。

作为优选，所述步骤(1)中利用正则表达式对语料库中的评论文本进行垃圾评论判别以完成初始划分。

利用有限的几条规则，实现了垃圾评论文本集和正常评论文本集的自动构建，对语料库形成一个初始划分，从而大大降低了人工标注的成本。

所述步骤(2)中对正常评论文本集和垃圾评论文本集中每一条评论文本进行垃圾评论判别时进行如下操作：

分别计算该评论文本属于正常评论文本集和垃圾评论文本集的类后验概率：

若属于垃圾评论文本集的类后验概率大于或等于属于正常评论文本集的类后验概率，则判定该评论文本为垃圾评论文本；

否则，判定为正常评论文本。

作为优选，通过如下步骤分别计算该评论文本属于正常评论文本集和垃圾评论文本集的类后验概率：

(2-1)对垃圾评论文本集进行垃圾评论关键词抽取，形成垃圾评论关键词词集：

(2-21)根据垃圾评论文本集中所有评论文本构建相应的实词词集；

(2-22)计算垃圾评论文本集和正常评论文本集的类先验概率，并根据计算结果采用信息增益方法计算实词词集中各个实词的权值，并提取权值大于预设阈值的实词作为垃圾评论关键词形成垃圾评论关键词词集。

本发明利用如下公式计算实词词集中第i个实词w_i的权值η(w_i)：

其中，1≤i≤n_word，n_word表示实词词集中实词的总个数，