[发明专利]基于终生学习的增量式朴素贝叶斯文本分类方法有效
申请号: | 201610983203.6 | 申请日: | 2016-11-08 |
公开(公告)号: | CN108062331B | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 夏睿;潘振春 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 陈鹏;朱显国 |
地址: | 210094 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 终生 学习 增量 朴素 斯文 分类 方法 | ||
1.一种基于终生学习的增量式朴素贝叶斯文本分类方法,其特征在于,包括以下步骤:
步骤1,获取初始文本,构成文本集;
步骤2,提取文本的特征词,将文本进行分词,保存文本集的特征词表以及文本数量;
步骤3,计算文本中各特征词的词频,将文本用向量模型进行表示,并将文本集分为训练集和验证集两个部分;
步骤4,通过朴素贝叶斯分类器训练上一步生成的训练集向量模型,得出朴素贝叶斯模型的先验概率和特征类条件概率并保存;
步骤5,判断是否有新文本,若有,增量式训练新文本并更新朴素贝叶斯模型的先验概率和特征类条件概率,若没有则执行步骤6;
增量式训练新文本并更新朴素贝叶斯模型的先验概率和特征类条件概率的具体过程为:
步骤5-1,对新文本进行特征词提取,将特征词表中没有的特征词加入特征词表,并统计新文本总数M;
步骤5-2,计算文本中各特征词的词频,并将文本用向量模型进行表示;
步骤5-3,结合保存的朴素贝叶斯模型的先验概率πj和特征类条件概率θi|j以及新文本T的向量模型使用增量式朴素贝叶斯更新方式更新参数得到新的先验概率πj′和特征类条件概率θi|j′;所述增量式朴素贝叶斯更新方式为:
公式(1)中Nj和Mj分别表示在文本集S和新文本T在j类中的文本总数,1≤j≤C,C为文本类别数,在不重新训练文本集S的情况下Nj是未知的,通过Nj=πj*N还原得到;1≤k≤M,M为新文本总数;
公式(2)中和分别表示文本集S和新文本T在j类中的特征规模,其中V为特征词表的长度,I(yk=cj)表示k文本的真实类别为cj,N(ti,xk)表示k文本中第i个特征出现的次数;ti为第i个特征,xk为第k个文本的特征向量,yk为第k个文本对应的类别标签;
通过特征规模缩放的方式得到:
加入平衡系数,包括通用平衡系数和每个类别的平衡系数两种方式:
λ为通用平衡系数,0λ1;
λj为第j个类别的平衡系数,0λj1;
步骤5-4,更新参数πj=πj′和θi|j=θi|j′,并且更新文本集S中文本总数N=N+M;
步骤6,从验证集中选取测试语料,并根据朴素贝叶斯模型得到测试语料的预测文本类别,计算预测的准确率。
2.根据权利要求1所述的基于终生学习的增量式朴素贝叶斯文本分类方法,其特征在于,步骤3中将文本集分为训练集和验证集两个部分的具体过程为:采用五倍交叉验证方法,每次选取4份文本作为训练集,一份文本作为验证集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610983203.6/1.html,转载请声明来源钻瓜专利网。