[发明专利]基于聚类重采样的水军评论检测方法有效
申请号: | 201910051767.X | 申请日: | 2019-01-21 |
公开(公告)号: | CN109783586B | 公开(公告)日: | 2022-10-21 |
发明(设计)人: | 廖祥文;徐阳;陈志豪;陈国龙 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06K9/62 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福州市闽*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 聚类重 采样 水军 评论 检测 方法 | ||
1.一种基于聚类重采样的水军评论检测系统的检测方法,其特征在于,所述系统包括一聚类参数计算模块,用于计算出评论簇个数以及簇中心点参数;
一聚类计算模块,用于聚类生成评论簇并重采样;
一集成学习模块,用于文本特征提取与集成学习,得到分类结果;
所述方法包括以下步骤:
步骤S1:采集待测用户行为特征,包括水军评论数据和非水军评论数据,并通过两次的PCA 主成分分析算法降维获取低维度行为特征;
步骤S2:将非水军评论数据的低维度行为特征输入聚类参数计算模块中,通过近邻传播算法,计算出簇个数以及簇中心点参数,并输入聚类计算模块;
步骤S3:将簇个数以及簇中心点参数,作为K-Means聚类的输入参数,得到非水军评论中相似的评论簇;
步骤S4:将水军评论数据的低维度行为特征和非水军评论中相似的评论簇作为训练集输入集成学习模块,得到最终分类结果;
所述步骤S3具体为:
步骤S31:将欧式距离作为K-means算法的相似度测度,求对应某一初始聚类中心向量V最优分类,使得评价指标J最小;
步骤S32:采用误差平方和准则函数作为K-means算法的聚类准则函数;
步骤S33:通过K-Means聚类算法,得到非水军评论中相似的评论簇;
步骤S34:制定重采样策略,其中采样策略为通过计算每个相似的评论簇中包含的评论数占总非水军评论数的比例,按这个计算的比例依次从每个评论簇中选取评论样本,根据采样策略从评论簇中获取文本训练集信息;
所述步骤S4具体为:
步骤S41:构造双层堆叠分类模型,第一层由三个基模型以及第二层融合模型组成;
步骤S42:通过基模型对整个训练集进行训练,预测结果映射成新的训练集与测试集;
步骤S43:根据新的训练集与测试集,利用第二层融合模型进行检测,得到最终分类结果。
2.根据权利要求1所述的基于聚类重采样的水军评论检测系统的检测方法,其特征在于:所述步骤S42在训练阶段,根据训练的迭代过程中损失函数是否不再下降,若下降需要将检测值与目标值求误差,并利用随机梯度下降法和后向传播对整个系统的参数进行迭代更新;否则,只需将得到的检测值输出即可。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910051767.X/1.html,转载请声明来源钻瓜专利网。