[发明专利]基于聚类重采样的水军评论检测方法有效

申请号：	201910051767.X	申请日：	2019-01-21
公开（公告）号：	CN109783586B	公开（公告）日：	2022-10-21
发明（设计）人：	廖祥文;徐阳;陈志豪;陈国龙	申请（专利权）人：	福州大学
主分类号：	G06F16/28	分类号：	G06F16/28;G06K9/62
代理公司：	福州元创专利商标代理有限公司 35100	代理人：	蔡学俊
地址：	350108 福建省福州市闽***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于聚类重采样水军评论检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于聚类重采样的水军评论检测系统，包括：一聚类参数计算模块，用于计算出合适的评论簇个数以及簇中心点参数；一聚类计算模块，用于聚类生成评论簇并重采样；一集成学习模块，用于文本特征提取与集成学习。本发明能够较好地进行评论类别的分析且通用性强，适应非平衡分布的水军评论数据集。

技术领域

本发明涉及情感分析和观点挖掘领域，具体涉及一种基于聚类重采样的水军评论检测方法。

背景技术

当前，有很多技术方法可用于水军评论检测。传统的检测方法采样方法时随机欠采样单纯从采样角度出发，很难确定获取完整的训练集信息。区别于传统的采样方法，如何训练集类多的样本信息，进行针对水军评论的检测，是水军评论检测的问题关键。传统的研究工作主要是基于欠采样与过采样的方法，使用支持向量机(SVM)分类器进行分类。这一类基于特征工程与浅层线性模型的方法虽然取得了一定的成效，但是对训练集样本利用不充分，耗时耗力，并且影响效性以及模型的学习能力，故而其性能还有待提升。

当前，随着聚类采样技术的快速发展，基于聚类采样的方式在数据不平衡时能获取更多的训练集信息。许多研究者们也将这些方法用于水军评论的分类。这类方法首先利用无监督学习算法中的k-means聚类分析技术将数据集划分成不同的子集，然后对各个子集进行逐类聚类，分别选出各类中心邻域内的样本点，构成最终的训练集，最后利用支持向量机对所选择的最具代表样本点进行训练建模。可以大幅度降低支持向量机的学习代价，其分类精度比随机欠采样更优，而且可以达到采用完整数据集训练所得的结果。而近邻传播算法正好可以弥补K-Means的参数确定问题。

当前，水军评论方法未充分利用非平衡训练集中数量大的类别信息，无法有效地挖掘出潜在的观点信息。近年来，得到了国内外许多学者和研究机构的高度重视。水军评论检测分类利用了在训练集中不同采样的策略，进行针对不同训练集制定重采样策略，能够站在数据端对模型性能进行提升，提供更加细粒度的信息，有效提高水军评论检测的分析结果的准确程度，有助于研判人员更加了解人们对热点话题、组织、产品等各种实体的真实观点和看法，为研判人员提供更加有效而准确的信息。这就对水军评论检测技术提出了一个挑战：如何构建一个有效的水军评论检测系统来满足其需要。

发明内容

有鉴于此，本发明的目的在于提供一种基于聚类重采样的水军评论检测系统，够自动选取最优的训练集样本，并对特征进行抽象和组合，最终识别出水军评论。

为实现上述目的，本发明采用如下技术方案：

一种基于聚类重采样的水军评论检测系统，包括：

一聚类参数计算模块，用于计算出合适的评论簇个数以及簇中心点参数；

一聚类计算模块，用于聚类生成评论簇并重采样；

一集成学习模块，用于文本特征提取与集成学习，得到分类结果。

进一步的，所述聚类参数计算模块采用近邻传播算法。

进一步的，所述聚类计算模块采用K-Means聚类算法。

进一步的，所述的基于聚类重采样的水军评论检测系统的检测方法，其特征在于，包括以下步骤:

步骤S1:采集待测用户行为特征，包括水军评论数据和非水军评论数据，并通过两次的PCA主成分分析算法降维获取低维度行为特征；

步骤S2:将非水军评论数据的低维度行为特征输入聚类参数计算模块中，通过近邻传播算法，计算出合适的簇个数以及簇中心点参数,并输入聚类计算模块；