[发明专利]一种基于情感分析的检测网络水军方法有效
申请号: | 201710559558.7 | 申请日: | 2017-07-11 |
公开(公告)号: | CN109241518B | 公开(公告)日: | 2021-01-22 |
发明(设计)人: | 陈彤;相迎宵;刘京京;王盈地;白肖璇;彭紫荆;孙志巍;关哲林;牛温佳;刘吉强 | 申请(专利权)人: | 北京交通大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/958;G06K9/62 |
代理公司: | 北京市商泰律师事务所 11255 | 代理人: | 黄晓军 |
地址: | 100044 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 情感 分析 检测 网络 水军 方法 | ||
1.一种基于情感分析的检测网络水军方法,其特征在于,包括:
S1:获取网页评论数据,将所述评论数据进行数据预处理,得到精简数据;
S2:将所述精简数据分为第一数据集、第二数据集,将所述第一数据集和所述第二数据集进行手动数据情感分析处理后构建成语料库;
S3:将所述第一数据集和第二数据集进行文本预处理,得到第一文本特征向量和第二文本特征向量;所述的特征向量生成过程分为如下步骤:
(1)中文分词
运用ICTCLAS中文分词器对评论数据进行分词并统计每一个词汇的词频,将评论数据的文本内容进行拆分成若干词汇,将所述若干词汇及所述若干词汇的词频代表一个文档;
(2)特征选取
运用CHI卡方检验对所述词汇进行特征选择,通过计算每个所述词汇的CHI值,按照从大到小进行排序,得出具有特征词汇,计算公式如下:
将公式应用到检测算法中的计算过程即为:c表示两个情感类别,t表示每个情感类别下的词汇,通过计算t和c的CHI值,得到每个词汇与对应情感类别的相关程度,然后通过排序选择出每个情感类别的特征词汇;以e表示特征词汇,则每个情感类别最终的特征词汇集表示如下:
{e1,e2,e3,……,em}
(3)计算特征权重
利用CHI卡方检验选取特征词汇后,运用TF-IDF权重计算公式计算得到每条评论数据中各特征的权重值,公式如下:
将TF-IDF公式应用到检测算法中的计算过程为:m表示该特征词在该条评论中出现的次数;M表示该条评论中的词汇总数;N表示评论总数;n表示包含该特征词的评论条数;
S4:读取所述语料库,运用设定分类器对所述第一文本特征向量进行数据处理,生成分类模型,利用所述第二文本特征向量测试所述分类模型精确度;
S5:所述分类模型精确度测试合格后,运用所述分类模型对待检测数据进行数据处理,得出具有情感类别标签的数据;
S6:运用设定规则对所述具有情感类别标签的数据进行分析匹配,检测出网络水军。
2.根据权利要求1所述的方法,其特征在于,所述的S1包括:
选取热门平台下的评论数据进行爬取,去除所述评论数据中的系统默认评论数据,去除所述评论数据中的评论等级为“中评”的评论数据。
3.根据权利要求1所述的方法,其特征在于,所述的S2包括:
所述第一数据集为训练数据集,所述第二数据集为测试数据集,所述的数据情感分析为将数据划分消极或积极两个情感类别,将所述训练数据集和所述测试数据集进行手动数据情感分析处理后,构建成语料库。
4.根据权利要求1所述的方法,其特征在于,
通过每条评论数据内容计算各特征词的权重值,将每条评论转化为一个多维特征向量,得到的数据格式为:
其中,以表示每条评论生成的特征向量,s表示每条评论。
5.根据权利要求1所述的方法,其特征在于,所述的S4包括:
所述设定分类器是通过利用集成的LibSVM软件包实现构建,利用LibSVM包含的核函数处理特征向量文件,训练生成SVM分类模型。
6.根据权利要求5所述的方法,其特征在于,所述的S4包括:
利用测试数据集对所述SVM分类模型进行精确度测试,通过调节所述核函数的参数优化训练过程,用于提高所述SVM分类模型的精确度。
7.根据权利要求1所述的方法,其特征在于,所述的S5包括:
所述待检测数据为获取的网页评论数据,将所述网页评论数据按照S1中的方式进行预处理,得到精简数据,将精简数据按照S3中的方式进行文本预处理,得到第三文本特征向量,利用已生成的SVM分类模型对所述第三文本特征向量数据进行数据处理,自动完成情感分类,得到具有情感类别标签的数据。
8.根据权利要求1所述的方法,其特征在于,所述的S6包括:
通过编程设置规则,对所述具有情感类别标签的数据进行所述规则匹配,得出的不相符数据视为检测出的网络水军。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京交通大学,未经北京交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710559558.7/1.html,转载请声明来源钻瓜专利网。