[发明专利]基于特征加权的朴素贝叶斯微博用户分类方法在审
申请号: | 201810443273.1 | 申请日: | 2018-05-10 |
公开(公告)号: | CN108596276A | 公开(公告)日: | 2018-09-28 |
发明(设计)人: | 黄梅根;周理含;王渝 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红;陈栋梁 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明请求保护一种基于特征加权的朴素贝叶斯微博用户分类方法。本发明目的是区分正常微博用户和恶意微博用户。本发明首先将经过离散化处理的微博用户数据分为训练数据集和测试数据集;然后对训练数据集进行计算得到各个特征的先验概率、条件概率和信息增益,再根据信息增益排名建立目标优化矩阵,确定各个特征的权值;最后对测试数据进行计算后验概率,最大的后验概率所对应的类别即是分类结果。本发明弱化了朴素贝叶斯分类方法的特征之间相互独立且同等重要的假设,通过计算信息增益,确定各特征对分类结果的重要程度,建立目标优化矩阵,确定各个特征的权值,以此提高了微博用户分类的准确性。 | ||
搜索关键词: | 微博 用户分类 贝叶斯 矩阵 训练数据集 分类结果 后验概率 目标优化 信息增益 加权 测试数据集 离散化处理 测试数据 计算信息 条件概率 先验概率 用户数据 弱化 分类 | ||
【主权项】:
1.一种基于特征加权的朴素贝叶斯微博用户分类方法,其特征在于,包括以下步骤:步骤1:获取微博用户信息,组建数据列表;步骤2:对步骤1中得到的微博用户信息数据进行离散化处理,得到数据集;步骤3:将数据集分为训练数据集和测试数据集;步骤4:对于训练数据集,计算微博用户所属类别的先验概率,以及各个特征的条件概率和信息增益;步骤5:采用改进朴素贝叶斯分类算法,改进点主要在于,通过计算各个特征的信息增益,获知各个特征对于分类结果的重要性,构建目标优化矩阵,根据各个特征信息的增益排名,确定每个特征的权值;步骤6:计算测试数据的后验概率,并将最大后验概率对应的类作为分类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810443273.1/,转载请声明来源钻瓜专利网。