[发明专利]基于特征二维信息增益加权的朴素贝叶斯文本分类方法有效

专利信息
申请号: 201810019705.6 申请日: 2018-01-09
公开(公告)号: CN108460080B 公开(公告)日: 2020-12-08
发明(设计)人: 张昀;于舒娟;何伟;朱文峰;金海红;董茜茜 申请(专利权)人: 南京邮电大学;南京邮电大学南通研究院有限公司
主分类号: G06F16/35 分类号: G06F16/35
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 朱小兵
地址: 226001 江苏省南*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供基于特征二维信息增益加权的朴素贝叶斯文本分类方法。所述方法获取文档的特征词,根据不同的特征词出现的类别数和文档数,得到相应的特征类别概率和特征文档概率,进而得到特征的二维信息增益;由于信息增益具有反应特征对分类效果提升大小的作用,信息增益越大说明该特征越能表达该类的信息,把特征的二维信息相结合,提高了朴素贝叶斯文本分类器的性能;并且与TFIDF加权朴素贝叶斯文本分类算法、TFIDF*IGC文本分类算法相比,基于特征二维信息增益加权的朴素贝叶斯文本分类方法具有更好的鲁棒性,使其对所有类别的分类效果都能保持很好;在同等条件下,本发明的分类性能要优于传统改进的朴素贝叶斯文本分类方法。
搜索关键词: 基于 特征 二维 信息 增益 加权 朴素 斯文 分类 方法
【主权项】:
1.基于特征二维信息增益加权的朴素贝叶斯文本分类方法,其特征在于,所述方法包括如下步骤:步骤A,根据贝叶斯定理计算得到后验概率P(Cj|Di):式中,P(Cj)表示类别Cj出现的概率,Cj表示第j个类别;Di={t1,t2...tm}表示文档Di所包含的特征词,m表示特征词数量,i为自然数;P(Di)=P(t1,t2...tm)表示各特征词的联合分布概率,是一个常数;P(Di|Cj)为文档Di属于类别Cj的概率;所述朴素贝叶斯文本分类的过程就是求解P(Cj|Di)最大值的过程,根据特征独立性假设,求解转化为:式中,tk∈{t1,t2...tm}表示文档Di包含的特征词,1≤k≤m;表示求表达式的最大值;C={C1,C2,...,Cj,...,CV},j表示自然数,V表示总的类别数;Cmap表示最终的分类结果,其值等于P(Cj|Di)的最大值;表示对表达式求积;P(tk|Cj)表示特征词tk属于类别Cj的概率;步骤B,计算特征类别概率P(tk,Cj):tf(tk,Cj)表示特征词tk在Cj类中的出现的频数;L=0.01为平滑因子;步骤C,计算特征文档概率:其中,表示含有特征词tk的文档;表示含有特征词tk的文档在类别Cj中出现的篇数;L=0.01为平滑因子,V表示总的类别数;步骤D,计算特征类别信息增益IGC:步骤E,计算特征文档信息增益IGD:其中,lb(·)表示以2为底的对数;E(Cj)为类别Cj的信息熵;E(Cj|tk)表示特征词tk的类别条件信息熵;表示特征词tk的文档条件信息熵;P(tk,Cj),分别为上文求出的特征类别概率和特征文档概率;步骤F,进行线性归一化处理,得到特征二维信息增益:其中,max(·)表示求表达式的最大值;min(·)表示求表达式的最小值;步骤G,对朴素贝叶斯模型进行加权,得到加权朴素贝叶斯模型:其中,Wk表示对应特征词tk的加权值,作为条件概率的幂次方;由于大多数的概率都很小,为了避免出现下溢,对决策规则取对数:其中ln表示自然对数;步骤H,将特征二维信息增益与加权朴素贝叶斯模型结合,得到基于特征二维信息增益加权的朴素贝叶斯文本分类方法的模型:
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学;南京邮电大学南通研究院有限公司,未经南京邮电大学;南京邮电大学南通研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810019705.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top